第一幕:三百年的“铁律”
传统观点:训练误差随复杂度单调下降;测试误差呈 U 形,存在一个“最佳复杂度”。
超过最佳点后,模型拟合噪声,测试误差升高——即“过拟合”。
偏差-方差权衡(标准示意)
最优点给出泛化误差最低的复杂度。
“双重下降”(现代现象示意)
在插值阈值附近测试误差出现峰值;继续增大模型后再次下降。
第二幕:打破常规的发现
随着模型进一步增大至训练误差≈0的插值阈值附近,测试误差先升后降,出现“第二次下降”。
这解释了为何超大网络并非简单记忆,而能再次提升泛化表现。
第三幕:规模竞赛的爆发
“越大越好”引导参数规模指数级跃迁。
代表性模型参数量(对数刻度)
从 GPT‑1 到 GPT‑3/PaLM,规模跃迁清晰可见。
第四幕:谜底揭晓——彩票假设
大模型为找到“初始化良好、结构简洁”的稀疏子网提供了海量机会——训练像是在抽“中奖彩票”。
核心洞察
大量剪枝仍不降精度,说明冗余参数广泛存在;规模的作用在于扩展搜索空间。
稀疏“中奖彩票”(示意)
第五幕:优雅的惊喜与新认知
规模是“寻找简洁解”的放大器,而非“存储复杂解”的仓库。
对智能的启示
超参数化提供丰富假设空间,有助于以少量样本发现稳定结构。
科学的勇气
突破来自对“禁区”的实证检验,而非先验否定。
未来的挑战
边际收益递减真实存在;需在架构、目标与优化上寻找新飞轮。