欢迎来到 AI 的下半场
AI 的游戏规则正在改变。我们正从“方法创新”的时代,迈向以“定义问题”和“创造真实效用”为核心的新纪元。
信息图基于 Shunyu Yao 的博客文章《The Second Half》
上半场:方法为王的时代
过去几十年,AI 的核心游戏是提出新方法和新模型,并在现有基准上取得突破。评估和任务定义虽然必要,但始终是配角。
为什么方法更受关注?
一个关键证据:突破性方法的论文引用数远超其所使用的基准测试。
*数据基于原文估算,用于说明数量级差异。
转折点:一份神奇的秘方
游戏规则为何改变?因为我们终于找到了一个能广泛解决问题的“秘方”,其核心是让强化学习(RL)真正实现了通用化。
RL 研究焦点的戏剧性反转
过去:算法至上
研究者痴迷于优化 RL 算法本身 (DQN, PPO...)
↓
中途:环境重要
意识到环境的重要性 (OpenAI Gym),但泛化能力差。
↓
现在:先验为王
发现语言模型提供的先验知识和推理作为行动才是实现通用的关键。
讽刺的是,曾经最被忽视的“先验”,如今成了最重要的部分。
下半场:效用难题
当“秘方”能轻易攻克各种基准时,旧的游戏玩不下去了。我们面临一个新问题:AI 在考试中战胜人类,但现实世界的生产力(如 GDP)并未因此巨变。
基准正在被加速攻克
新模型在各项基准上的表现提升速度越来越快,旧的“刷榜”游戏难以为继。
根源:评估与现实脱节
1
自动化 vs. 交互式
真实世界需要持续的人机交互,而非一次性的任务输入和输出。
2
独立同分布 (i.i.d.) vs. 序贯学习
真实世界的工作是连续的,需要积累经验,而非解决一堆互不相关的独立任务。
新游戏规则:从解题到定义问题
下半场的关键,在于重新思考我们如何评估 AI,从而驱动真正有价值的创新。
上半场循环
开发新模型/方法
↓
在现有基准上“刷榜”
↓
创造更难的基准
⟳
下半场循环
为真实世界效用开发新评估
↓
用“秘方”或新方法解决
↓
创造真实价值 / 发现新问题
⟳
下半场,机遇无限
上半场的玩家解决了游戏和考试,下半场的玩家将通过构建真正有用的产品,创造数万亿的价值。这更难,但也更令人兴奋。
比赛,才刚刚开始。