CS25 v4-Jason Wei

Ttzs Lv3

主要内容

Jason主要围绕什么使得大语言模型如此奏效展开,核心观点是:大语言模型的成功并不是因为某一个单独的技术突破,而是多因素叠加的结果 ,其中最有意思是scaling curves(缩放定律)
什么使得大语言模型如此奏效?

  • 手动检查数据:我的理解是高质量的训练数据
    • 手动检查与筛选的数据质量能够让模型更好地学习”规律”,而不是”模式匹配”
  • 多任务学习范式: 多任务学习范式使得LM适应多种任务(从翻译,生成摘要,到数学求解等)
  • 计算机资源拓展: 大规模的计算促进损失下降
    • 更强的计算能力 → 可以训练更大的模型、更多的数据 → 训练损失整体下降
  • 全局的损失下降,但是部分的任务的损失可能上升
    • 部分任务在局部区间可能会“变差”,这是因为模型需要重新分配参数空间去学习更复杂的模式
  • 逆缩放曲线(Inverse Scaling Laws)
    • 增加数据量和模型规模,小范围内可能无法看到正确率的上升,反而下降
    • 大模型并不是线性地“越来越好”,而是 跨越一个“理解门槛” 后,才会真正学会该任务

参考

[1] # Stanford CS25: V4 I Jason Wei & Hyung Won Chung of OpenAI.https://www.youtube.com/watch?v=3gb-ZkVRemQ&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=27

  • 标题: CS25 v4-Jason Wei
  • 作者: Ttzs
  • 创建于 : 2025-09-25 00:00:00
  • 更新于 : 2025-10-04 19:43:45
  • 链接: https://ttzs-git.github.io/2025/09/25/CS25 v4-Jason Wei/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论
目录
CS25 v4-Jason Wei