上周,备受期待的 GPT-5 终于发布。人们曾希望它能带来下一次重大的 A.I. 能力飞跃。然而,市场反响平平。A.I. 领域的批评家 Gary Marcus 将其总结为“姗姗来迟、过度炒作、令人失望”。
GPT-5 的平淡发布,迫使我们直面一个尖锐的问题:A.I. 发展的“黄金时代”是否已经结束?
第一幕:规模信仰的兴起与动摇
狂热的起点:规模法则 (2020)
2020年1月,OpenAI 的研究人员提出了“规模法则(Scaling Laws)”。他们假设:模型的性能将随着规模和训练强度的增加而持续提升,遵循“幂律”——一条陡峭的“曲棍球杆”曲线。
这意味着,只要投入更多算力,通用人工智能(AGI)似乎指日可待。
验证与冲刺:GPT-3/4时代 (2020-2023)
GPT-3 和 GPT-4 的相继发布,以其惊人的能力飞跃似乎验证了这一点。Sam Altman 预言“万物的摩尔定律”。
2023年,GPT-4 被称为“AGI的火花”。AI 领域的风险投资在随后一年激增了 80%。业界沉浸在指数级增长的叙事中。
转折点:增长放缓 (2024)
然而,GPT-4 之后,进展似乎放缓了。OpenAI 代号为“Orion”的下一代模型结果令人失望。马斯克投入10万块 H100 GPU 训练的 Grok 3 也未能显著超越对手。
业界开始意识到,单纯扩大规模正在产生边际收益递减。规模法则,可能并非永恒定律。
GPT-5:现实检验 (2025)
上周(2025年8月),GPT-5 发布,但反响平平。虽然在特定方面有所改进,但整体性能提升远小于预期。
AI 发展的轨迹,似乎正在进入平台期。
第二幕:策略转向——从造新车到改旧车
当扩大规模的回报递减时,业界开始转向“后训练优化(Post-training improvements)”。
路线一:预训练 (Pre-training)
“规模法则时代” (2010s - 2023)
让模型消化整个互联网以变得“聪明”。这就像是制造一辆全新的、引擎更强大的汽车。如果 GPT-3 是轿车,GPT-4 就是跑车。
- 核心:构建更大规模的基础模型。
- 结果:带来了广泛的能力跃升,但目前似乎遇到了瓶颈。
路线二:后训练优化 (Post-training)
“优化时代” (2024 - ?)
在模型已有的知识和能力基础上进行精炼。这就像是聘请机械师来调优现有的汽车,让它在特定赛道上表现更好。
- 核心:通过强化学习等技术优化模型行为。
- 结果:在特定任务(如编程)上表现更好,但提升感觉更狭窄。GPT-5 是这一路线的产物。
“你可以从改装你的凯美瑞中获得很多效用,但再多的调整也不会把它变成法拉利。”
第三幕:智能的幻觉
GPT-5 在基准测试中得分更高,但这是否代表了真正的智能?研究表明,我们可能高估了模型的推理能力。
表面的进步 vs 深层的脆弱
虽然 GPT-5 在编程等特定任务上表现更好,但其广泛能力扩展并不明显。它更像是一个软件更新,而非革命性的突破。
更关键的是,AI 公司宣称的“逐步推理”能力可能存在严重局限。苹果研究人员在论文《思维的幻觉》中指出,当谜题的复杂性稍微超出训练数据的分布范围时,最先进模型的性能会急剧下降。
“AI公司所谓的推理,是一种脆弱的海市蜃楼,一旦被推到训练分布之外就会消失。” — 亚利桑那州立大学研究人员
AI 推理能力随复杂性崩溃(概念图)
* 模拟苹果研究人员发现的现象:性能在超出复杂度阈值后“崩溃到零”。
第四幕:狂热背后的经济账本
AI 的炒作支撑了科技股的高估值(占美股总市值的35%),但巨额的投入是否带来了相应的回报?
科技七巨头 (Magnificent Seven) 的 AI 投入与产出
(过去 18 个月数据分析,来源:Ed Zitron)
AI 相关资本支出 (投入/CapEx)
投入产出比
AI 相关营收 (产出/Revenue)
注:产出仅占投入的 6.25%。
“当你看到这些数字时,你会觉得疯狂。” — Ed Zitron, 技术分析师
市场规模预测对比
乐观派预测
万亿美元级怀疑论者预测
500亿 - 1000亿美元级