主要内容

标题: CS25 v4-Jason Wei
作者: Ttzs
创建于: 2025-09-25 00:00:00
更新于: 2025-10-04 19:43:45
链接: https://ttzs-git.github.io/2025/09/25/CS25 v4-Jason Wei/
版权声明: 本文章采用 <a class="license" target="_blank" rel="noopener" href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0 进行许可。

Jason主要围绕什么使得大语言模型如此奏效展开，核心观点是:大语言模型的成功并不是因为某一个单独的技术突破，而是多因素叠加的结果 ，其中最有意思是scaling curves(缩放定律)。
什么使得大语言模型如此奏效？

手动检查数据:我的理解是高质量的训练数据
- 手动检查与筛选的数据质量能够让模型更好地学习”规律”，而不是”模式匹配”
多任务学习范式: 多任务学习范式使得LM适应多种任务(从翻译，生成摘要，到数学求解等)
计算机资源拓展: 大规模的计算促进损失下降
- 更强的计算能力 → 可以训练更大的模型、更多的数据 → 训练损失整体下降
全局的损失下降，但是部分的任务的损失可能上升
- 部分任务在局部区间可能会“变差”，这是因为模型需要重新分配参数空间去学习更复杂的模式
逆缩放曲线(Inverse Scaling Laws)
- 增加数据量和模型规模，小范围内可能无法看到正确率的上升，反而下降
- 大模型并不是线性地“越来越好”，而是 跨越一个“理解门槛” 后，才会真正学会该任务

参考