如果 AI 的进步止步于此?

Cal Newport 论 GPT-5 与大型语言模型停滞的可能性

来源:The New Yorker | 制作日期:2025年8月16日

🏷️ 分类: 技术 商业
🔖 标签: #人工智能 #AGI #OpenAI #GPT-5 #规模法则 #后训练优化

上周,备受期待的 GPT-5 终于发布。人们曾希望它能带来下一次重大的 A.I. 能力飞跃。然而,市场反响平平。A.I. 领域的批评家 Gary Marcus 将其总结为“姗姗来迟、过度炒作、令人失望”。

GPT-5 的平淡发布,迫使我们直面一个尖锐的问题:A.I. 发展的“黄金时代”是否已经结束?

第一幕:规模信仰的兴起与动摇

狂热的起点:规模法则 (2020)

2020年1月,OpenAI 的研究人员提出了“规模法则(Scaling Laws)”。他们假设:模型的性能将随着规模和训练强度的增加而持续提升,遵循“幂律”——一条陡峭的“曲棍球杆”曲线。

这意味着,只要投入更多算力,通用人工智能(AGI)似乎指日可待。

验证与冲刺:GPT-3/4时代 (2020-2023)

GPT-3 和 GPT-4 的相继发布,以其惊人的能力飞跃似乎验证了这一点。Sam Altman 预言“万物的摩尔定律”。

2023年,GPT-4 被称为“AGI的火花”。AI 领域的风险投资在随后一年激增了 80%。业界沉浸在指数级增长的叙事中。

转折点:增长放缓 (2024)

然而,GPT-4 之后,进展似乎放缓了。OpenAI 代号为“Orion”的下一代模型结果令人失望。马斯克投入10万块 H100 GPU 训练的 Grok 3 也未能显著超越对手。

业界开始意识到,单纯扩大规模正在产生边际收益递减。规模法则,可能并非永恒定律。

GPT-5:现实检验 (2025)

上周(2025年8月),GPT-5 发布,但反响平平。虽然在特定方面有所改进,但整体性能提升远小于预期。

AI 发展的轨迹,似乎正在进入平台期。

第二幕:策略转向——从造新车到改旧车

当扩大规模的回报递减时,业界开始转向“后训练优化(Post-training improvements)”。

路线一:预训练 (Pre-training)

“规模法则时代” (2010s - 2023)

让模型消化整个互联网以变得“聪明”。这就像是制造一辆全新的、引擎更强大的汽车。如果 GPT-3 是轿车,GPT-4 就是跑车。

  • 核心:构建更大规模的基础模型。
  • 结果:带来了广泛的能力跃升,但目前似乎遇到了瓶颈。

路线二:后训练优化 (Post-training)

“优化时代” (2024 - ?)

在模型已有的知识和能力基础上进行精炼。这就像是聘请机械师来调优现有的汽车,让它在特定赛道上表现更好。

  • 核心:通过强化学习等技术优化模型行为。
  • 结果:在特定任务(如编程)上表现更好,但提升感觉更狭窄。GPT-5 是这一路线的产物。

“你可以从改装你的凯美瑞中获得很多效用,但再多的调整也不会把它变成法拉利。”

第三幕:智能的幻觉

GPT-5 在基准测试中得分更高,但这是否代表了真正的智能?研究表明,我们可能高估了模型的推理能力。

表面的进步 vs 深层的脆弱

虽然 GPT-5 在编程等特定任务上表现更好,但其广泛能力扩展并不明显。它更像是一个软件更新,而非革命性的突破。

更关键的是,AI 公司宣称的“逐步推理”能力可能存在严重局限。苹果研究人员在论文《思维的幻觉》中指出,当谜题的复杂性稍微超出训练数据的分布范围时,最先进模型的性能会急剧下降。

“AI公司所谓的推理,是一种脆弱的海市蜃楼,一旦被推到训练分布之外就会消失。” — 亚利桑那州立大学研究人员

AI 推理能力随复杂性崩溃(概念图)

* 模拟苹果研究人员发现的现象:性能在超出复杂度阈值后“崩溃到零”。

第四幕:狂热背后的经济账本

AI 的炒作支撑了科技股的高估值(占美股总市值的35%),但巨额的投入是否带来了相应的回报?

科技七巨头 (Magnificent Seven) 的 AI 投入与产出

(过去 18 个月数据分析,来源:Ed Zitron)

$5600 亿

AI 相关资本支出 (投入/CapEx)

VS
16 : 1

投入产出比

$350 亿

AI 相关营收 (产出/Revenue)

投入 ($5600亿)

注:产出仅占投入的 6.25%。

“当你看到这些数字时,你会觉得疯狂。” — Ed Zitron, 技术分析师

市场规模预测对比

乐观派预测

万亿美元级

怀疑论者预测

500亿 - 1000亿美元级