AI 范式革命

颠覆认知的 “彩票假设”

为什么违反了数百年统计学定律的巨型神经网络,却取得了前所未有的成功?

来源: Nearly Right | Jamie Lord | 2025年8月

🏷️ 分类: 科学 技术
🔖 标签: #AI研究 #彩票假设 #神经网络 #机器学习理论 #泛化误差 #模型规模

第一幕:三百年的“铁律”

传统观点:训练误差随复杂度单调下降;测试误差呈 U 形,存在一个“最佳复杂度”。

超过最佳点后,模型拟合噪声,测试误差升高——即“过拟合”。

偏差-方差权衡(标准示意)

最优点给出泛化误差最低的复杂度。

“双重下降”(现代现象示意)

在插值阈值附近测试误差出现峰值;继续增大模型后再次下降。

第二幕:打破常规的发现

随着模型进一步增大至训练误差≈0的插值阈值附近,测试误差先升后降,出现“第二次下降”。

这解释了为何超大网络并非简单记忆,而能再次提升泛化表现。

第三幕:规模竞赛的爆发

“越大越好”引导参数规模指数级跃迁。

代表性模型参数量(对数刻度)

从 GPT‑1 到 GPT‑3/PaLM,规模跃迁清晰可见。

第四幕:谜底揭晓——彩票假设

大模型为找到“初始化良好、结构简洁”的稀疏子网提供了海量机会——训练像是在抽“中奖彩票”。

核心洞察

大量剪枝仍不降精度,说明冗余参数广泛存在;规模的作用在于扩展搜索空间

稀疏“中奖彩票”(示意)

第五幕:优雅的惊喜与新认知

规模是“寻找简洁解”的放大器,而非“存储复杂解”的仓库。

对智能的启示

超参数化提供丰富假设空间,有助于以少量样本发现稳定结构。

科学的勇气

突破来自对“禁区”的实证检验,而非先验否定。

未来的挑战

边际收益递减真实存在;需在架构、目标与优化上寻找新飞轮。