CS25 v4-Jason Wei
主要内容
Jason主要围绕什么使得大语言模型如此奏效展开,核心观点是:大语言模型的成功并不是因为某一个单独的技术突破,而是多因素叠加的结果 ,其中最有意思是scaling curves(缩放定律)。
什么使得大语言模型如此奏效?
- 手动检查数据:我的理解是高质量的训练数据
- 手动检查与筛选的数据质量能够让模型更好地学习”规律”,而不是”模式匹配”
- 多任务学习范式: 多任务学习范式使得LM适应多种任务(从翻译,生成摘要,到数学求解等)
- 计算机资源拓展: 大规模的计算促进损失下降
- 更强的计算能力 → 可以训练更大的模型、更多的数据 → 训练损失整体下降
- 全局的损失下降,但是部分的任务的损失可能上升
- 部分任务在局部区间可能会“变差”,这是因为模型需要重新分配参数空间去学习更复杂的模式
- 逆缩放曲线(Inverse Scaling Laws)
- 增加数据量和模型规模,小范围内可能无法看到正确率的上升,反而下降
- 大模型并不是线性地“越来越好”,而是 跨越一个“理解门槛” 后,才会真正学会该任务
参考
[1] # Stanford CS25: V4 I Jason Wei & Hyung Won Chung of OpenAI.https://www.youtube.com/watch?v=3gb-ZkVRemQ&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=27
- 标题: CS25 v4-Jason Wei
- 作者: Ttzs
- 创建于 : 2025-09-25 00:00:00
- 更新于 : 2025-10-04 19:43:45
- 链接: https://ttzs-git.github.io/2025/09/25/CS25 v4-Jason Wei/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论