CS25 v4-Hyung Won Chung

Ttzs Lv3

主要内容

Hyung的lecture很有意思,分享了他预测AI未来发展趋势的方法,使我想起了李沐老师分享”从论文中寻找研究人员看待世界的角度“。他的核心观点是从主要驱动力的角度审视模型的一些归纳假设。从他跟同学的互动中,他对于RLFH持正向观点。

如何预测多因子事件的发展

如何在当下社会(每年都有巨量论文 → 不可能面面俱到 → 要抓住底层驱动力)中生存?Hyung 提供了一种“回归历史、预测未来”的方法:

  • 发现主要驱动力
  • 理解主要驱动力
  • 预测未来的轨迹

    根源在于寻找每个事件背后的最主要的驱动力,那么AI发展背后的主要驱动力是什么?

  • 更便宜的计算力和更大规模的计算

AI发展的基本逻辑

  • 朴素直觉: 让AI像人一样思考,AI是能够模仿人类的智能
  • 问题: 我们人类并不真正了解自己的学习背后的机理,导致了一些AI可能出现瓶颈
  • 真正的方法: 使用更弱的模型假设+增加更多的数据算力(使得模型能够自行探索)
  • 阶段性困境: 在算力较弱的时期,较弱的模型假设无法发挥所有的能力,性能可能不如较强假设的模型效果好
  • 启发: AI工作者可能应该寻找当下性能较弱的工作,但潜在更通用”的方法

归纳假设

回归Transformer的三种架构,探寻其中的归纳假设

这也是我当初学习时,一直好奇的,为什么Transformer中的经典架构,在后续的BERT和GPT3中只保留了部分

模型架构 Encoder-Decoder Decoder-Only Encoder-Only
代表 Transformer GPT3 Bert
任务 机器翻译 生成任务 分类问题
额外的交叉注意力 分离的交叉注意力
参数共享 输入和输出的参数不同 共享参数
“目标到输入”的注意力模式 只在承担最后一层的encoder的输出 任意层任可直接关注目标
输入的注意机制 双向注意力 单向注意力(掩码机制) 双向注意力(专注输入编码,不做生成)
应用场景 适合输入/输出差异大的任务 强调序列生成与延续性 偏向语义理解与判别
Encoder-Decoder:
  1. 输入和输入相差甚远=> 使用了不同的架构处理输入和输出
  2. 目标项能承担全部输入的全部编码
  3. 当编码输入的序列时,在序列项中all-to-all是更好的

除此之外,还提供其他的归纳假设的看法

  • 任务架构 ≠ 核心瓶颈: 任务架构不是最重要的瓶颈限制,真正重要的是算力与弱假设模型的结合
  • 监督学习的局限: 监督学习可能过度限制,标签相当于人强加了额外假设,使得模型丧失了部分学习能力
  • RLHF 的优势:RLHF使用更少的假设可能更利于模型

参考

[1] # Stanford CS25: V4 I Jason Wei & Hyung Won Chung of OpenAI.https://www.youtube.com/watch?v=3gb-ZkVRemQ&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=27

  • 标题: CS25 v4-Hyung Won Chung
  • 作者: Ttzs
  • 创建于 : 2025-09-25 00:00:00
  • 更新于 : 2025-10-04 19:43:40
  • 链接: https://ttzs-git.github.io/2025/09/25/CS25 v4-Hyung Won Chung/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论