🏷️ 分类: 人工智能 技术
🔖 标签: #强化学习 #语言模型 #AI评估 #现实世界应用 #基准测试

欢迎来到 AI 的下半场

AI 的游戏规则正在改变。我们正从“方法创新”的时代,迈向以“定义问题”和“创造真实效用”为核心的新纪元。

信息图基于 Shunyu Yao 的博客文章《The Second Half》

上半场:方法为王的时代

过去几十年,AI 的核心游戏是提出新方法和新模型,并在现有基准上取得突破。评估和任务定义虽然必要,但始终是配角。

为什么方法更受关注?

一个关键证据:突破性方法的论文引用数远超其所使用的基准测试。

*数据基于原文估算,用于说明数量级差异。

转折点:一份神奇的秘方

游戏规则为何改变?因为我们终于找到了一个能广泛解决问题的“秘方”,其核心是让强化学习(RL)真正实现了通用化。

RL 研究焦点的戏剧性反转

过去:算法至上

研究者痴迷于优化 RL 算法本身 (DQN, PPO...)

中途:环境重要

意识到环境的重要性 (OpenAI Gym),但泛化能力差。

现在:先验为王

发现语言模型提供的先验知识推理作为行动才是实现通用的关键。

讽刺的是,曾经最被忽视的“先验”,如今成了最重要的部分。

下半场:效用难题

当“秘方”能轻易攻克各种基准时,旧的游戏玩不下去了。我们面临一个新问题:AI 在考试中战胜人类,但现实世界的生产力(如 GDP)并未因此巨变。

基准正在被加速攻克

新模型在各项基准上的表现提升速度越来越快,旧的“刷榜”游戏难以为继。

根源:评估与现实脱节

1

自动化 vs. 交互式

真实世界需要持续的人机交互,而非一次性的任务输入和输出。

2

独立同分布 (i.i.d.) vs. 序贯学习

真实世界的工作是连续的,需要积累经验,而非解决一堆互不相关的独立任务。

新游戏规则:从解题到定义问题

下半场的关键,在于重新思考我们如何评估 AI,从而驱动真正有价值的创新。

上半场循环

开发新模型/方法
在现有基准上“刷榜”
创造更难的基准

下半场循环

为真实世界效用开发新评估
用“秘方”或新方法解决
创造真实价值 / 发现新问题

下半场,机遇无限

上半场的玩家解决了游戏和考试,下半场的玩家将通过构建真正有用的产品,创造数万亿的价值。这更难,但也更令人兴奋。

比赛,才刚刚开始。