CS25 v4-Hyung Won Chung
主要内容
Hyung的lecture很有意思,分享了他预测AI未来发展趋势的方法,使我想起了李沐老师分享”从论文中寻找研究人员看待世界的角度“。他的核心观点是从主要驱动力的角度审视模型的一些归纳假设。从他跟同学的互动中,他对于RLFH持正向观点。
如何预测多因子事件的发展
如何在当下社会(每年都有巨量论文 → 不可能面面俱到 → 要抓住底层驱动力)中生存?Hyung 提供了一种“回归历史、预测未来”的方法:
- 发现主要驱动力
- 理解主要驱动力
- 预测未来的轨迹
根源在于寻找每个事件背后的最主要的驱动力,那么AI发展背后的主要驱动力是什么?
- 更便宜的计算力和更大规模的计算
AI发展的基本逻辑
- 朴素直觉: 让AI像人一样思考,AI是能够模仿人类的智能
- 问题: 我们人类并不真正了解自己的学习背后的机理,导致了一些AI可能出现瓶颈
- 真正的方法: 使用更弱的模型假设+增加更多的数据和算力(使得模型能够自行探索)
- 阶段性困境: 在算力较弱的时期,较弱的模型假设无法发挥所有的能力,性能可能不如较强假设的模型效果好
- 启发: AI工作者可能应该寻找当下性能较弱的工作,但潜在更通用”的方法
归纳假设
回归Transformer的三种架构,探寻其中的归纳假设
这也是我当初学习时,一直好奇的,为什么Transformer中的经典架构,在后续的BERT和GPT3中只保留了部分
| 模型架构 | Encoder-Decoder | Decoder-Only | Encoder-Only |
|---|---|---|---|
| 代表 | Transformer | GPT3 | Bert |
| 任务 | 机器翻译 | 生成任务 | 分类问题 |
| 额外的交叉注意力 | 分离的交叉注意力 | ||
| 参数共享 | 输入和输出的参数不同 | 共享参数 | |
| “目标到输入”的注意力模式 | 只在承担最后一层的encoder的输出 | 任意层任可直接关注目标 | |
| 输入的注意机制 | 双向注意力 | 单向注意力(掩码机制) | 双向注意力(专注输入编码,不做生成) |
| 应用场景 | 适合输入/输出差异大的任务 | 强调序列生成与延续性 | 偏向语义理解与判别 |
| Encoder-Decoder: |
- 输入和输入相差甚远=> 使用了不同的架构处理输入和输出
- 目标项能承担全部输入的全部编码
- 当编码输入的序列时,在序列项中all-to-all是更好的
除此之外,还提供其他的归纳假设的看法
- 任务架构 ≠ 核心瓶颈: 任务架构不是最重要的瓶颈限制,真正重要的是算力与弱假设模型的结合
- 监督学习的局限: 监督学习可能过度限制,标签相当于人强加了额外假设,使得模型丧失了部分学习能力
- RLHF 的优势:RLHF使用更少的假设可能更利于模型
参考
[1] # Stanford CS25: V4 I Jason Wei & Hyung Won Chung of OpenAI.https://www.youtube.com/watch?v=3gb-ZkVRemQ&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=27
- 标题: CS25 v4-Hyung Won Chung
- 作者: Ttzs
- 创建于 : 2025-09-25 00:00:00
- 更新于 : 2025-10-04 19:43:40
- 链接: https://ttzs-git.github.io/2025/09/25/CS25 v4-Hyung Won Chung/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论