Rich Sutton 的 AI 新路径

来自 Approximately Correct 播客的深度洞察

🏷️ 分类: 科学 技术
🔖 标签: #强化学习 #人工智能 #深度学习 #持续学习 #表征学习 #奖励假说

核心理念:为何是强化学习?

Sutton 的初心很简单:创造一个能与世界互动、从经验中学习、并拥有明确目标的智能系统。这正是强化学习(RL)的本质。

强化学习

主动交互,试错学习,最大化奖励(目标驱动)。

传统监督学习

被动学习,识别模式,没有自身目标。

“AI 早期曾想实现交互目标,但后来‘滑向’了更清晰简单的模式识别,并逐渐忘记了初心。”

AI 的十字路口:一个“魔鬼的交易”

传统线性方法

能够持续学习(Continual Learning),实时适应世界变化。

无法学习非线性关系和创造新特征。

“能快速适应,但能力有限。”

现代深度学习 (Backprop)

能够学习强大的非线性映射和复杂表征。

牺牲了持续学习能力,采用“瞬时学习”(Transient Learning)。

“在工厂学习,然后冻结。ChatGPT 在使用中不会学习。”

“路灯下找钥匙”困境

AI 领域过分专注于深度学习能做到的事(在固定数据集上取得惊人成果),而忽视了它做不到的事(持续学习),因为前者更容易发表论文、获得成功。这阻碍了真正通用智能的发展。

Sutton 的新路径:填补鸿沟

Sutton 认为,是时候打破这种权衡了。他的目标是实现持续性的非线性学习(Continual Nonlinear Learning)。

“我给了他们40年时间去解决这个问题,但他们没有。现在我必须自己动手了。这听起来很傲慢,但我真的希望我本不必这么做。”

核心瓶颈:表征学习 (Representation Learning)

Sutton 尖锐地指出,反向传播(Backprop)本身并不能学到通用且泛化能力强的表征。它只是在梯度下降的驱动下,找到能解决当前特定任务的特征。我们需要新的算法和目标函数来学习真正有意义的世界模型。

宏大目标:在未来十年理解心智

Sutton 对“理解心智”的概率预测

“理解心智”意味着什么?

  • 通过试错来学习
  • 构建世界的转换模型以进行规划
  • 在多层次抽象上进行决策
  • 学习真正泛化的优秀表征

奖励假说 (The Reward Hypothesis)

一个深刻且可能“令人不适”的观点:所有复杂、高级的目标(如事业、家庭),最终都可以被视为为了最大化一个单一、低级的标量奖励信号(如快乐、痛苦、社会认同)而产生的子问题。从最简单的“汁液”中,涌现出最抽象的概念。

如果成功,世界将如何改变?

社会与心理

我们将更深刻地理解自身,可能带来不适感,但最终会促进自我认知。人与其他智能的界限将变得模糊。

技术与经济

心智增强(Augmentation)成为可能,我们可以拥有更好的记忆和思维能力。这将引发巨大的经济变革。

沟通方式

我们可能超越语言这种低带宽的线性媒介,实现更直接、更高效的思想交流。

给研究者的建议

1. 坚持写研究笔记

每天记录你的想法,挑战并发展它们。这能帮助你理清思路,找到真正有价值的方向。

“写下想法的价值,通常与你对它有多模糊和困惑成正比。”

2. 对热点保持中立

不要被流行趋势左右。选择对你来说重要且富有成果的问题,即使它很冷门。

“热门方向更容易被理解,但价值可能更低,因为人人都在做。”