主要内容

标题: CS25 v4-Hyung Won Chung
作者: Ttzs
创建于: 2025-09-25 00:00:00
更新于: 2025-10-04 19:43:40
链接: https://ttzs-git.github.io/2025/09/25/CS25 v4-Hyung Won Chung/
版权声明: 本文章采用 <a class="license" target="_blank" rel="noopener" href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0 进行许可。

Hyung的lecture很有意思，分享了他预测AI未来发展趋势的方法，使我想起了李沐老师分享”从论文中寻找研究人员看待世界的角度“。他的核心观点是从主要驱动力的角度审视模型的一些归纳假设。从他跟同学的互动中，他对于RLFH持正向观点。

如何预测多因子事件的发展

如何在当下社会(每年都有巨量论文 → 不可能面面俱到 → 要抓住底层驱动力)中生存？Hyung 提供了一种“回归历史、预测未来”的方法:

回归Transformer的三种架构，探寻其中的归纳假设

这也是我当初学习时，一直好奇的，为什么Transformer中的经典架构，在后续的BERT和GPT3中只保留了部分

模型架构	Encoder-Decoder	Decoder-Only	Encoder-Only
代表	Transformer	GPT3	Bert
任务	机器翻译	生成任务	分类问题
额外的交叉注意力	分离的交叉注意力
参数共享	输入和输出的参数不同	共享参数
“目标到输入”的注意力模式	只在承担最后一层的encoder的输出	任意层任可直接关注目标
输入的注意机制	双向注意力	单向注意力(掩码机制)	双向注意力(专注输入编码，不做生成)
应用场景	适合输入/输出差异大的任务	强调序列生成与延续性	偏向语义理解与判别
Encoder-Decoder:

除此之外，还提供其他的归纳假设的看法