核心理念:为何是强化学习?
Sutton 的初心很简单:创造一个能与世界互动、从经验中学习、并拥有明确目标的智能系统。这正是强化学习(RL)的本质。
强化学习
主动交互,试错学习,最大化奖励(目标驱动)。
传统监督学习
被动学习,识别模式,没有自身目标。
“AI 早期曾想实现交互目标,但后来‘滑向’了更清晰简单的模式识别,并逐渐忘记了初心。”
AI 的十字路口:一个“魔鬼的交易”
传统线性方法
✓ 能够持续学习(Continual Learning),实时适应世界变化。
✗ 无法学习非线性关系和创造新特征。
“能快速适应,但能力有限。”
现代深度学习 (Backprop)
✓ 能够学习强大的非线性映射和复杂表征。
✗ 牺牲了持续学习能力,采用“瞬时学习”(Transient Learning)。
“在工厂学习,然后冻结。ChatGPT 在使用中不会学习。”
“路灯下找钥匙”困境
AI 领域过分专注于深度学习能做到的事(在固定数据集上取得惊人成果),而忽视了它做不到的事(持续学习),因为前者更容易发表论文、获得成功。这阻碍了真正通用智能的发展。
Sutton 的新路径:填补鸿沟
Sutton 认为,是时候打破这种权衡了。他的目标是实现持续性的非线性学习(Continual Nonlinear Learning)。
“我给了他们40年时间去解决这个问题,但他们没有。现在我必须自己动手了。这听起来很傲慢,但我真的希望我本不必这么做。”
核心瓶颈:表征学习 (Representation Learning)
Sutton 尖锐地指出,反向传播(Backprop)本身并不能学到通用且泛化能力强的表征。它只是在梯度下降的驱动下,找到能解决当前特定任务的特征。我们需要新的算法和目标函数来学习真正有意义的世界模型。
宏大目标:在未来十年理解心智
Sutton 对“理解心智”的概率预测
“理解心智”意味着什么?
- 通过试错来学习
- 构建世界的转换模型以进行规划
- 在多层次抽象上进行决策
- 学习真正泛化的优秀表征
奖励假说 (The Reward Hypothesis)
一个深刻且可能“令人不适”的观点:所有复杂、高级的目标(如事业、家庭),最终都可以被视为为了最大化一个单一、低级的标量奖励信号(如快乐、痛苦、社会认同)而产生的子问题。从最简单的“汁液”中,涌现出最抽象的概念。
如果成功,世界将如何改变?
社会与心理
我们将更深刻地理解自身,可能带来不适感,但最终会促进自我认知。人与其他智能的界限将变得模糊。
技术与经济
心智增强(Augmentation)成为可能,我们可以拥有更好的记忆和思维能力。这将引发巨大的经济变革。
沟通方式
我们可能超越语言这种低带宽的线性媒介,实现更直接、更高效的思想交流。
给研究者的建议
1. 坚持写研究笔记
每天记录你的想法,挑战并发展它们。这能帮助你理清思路,找到真正有价值的方向。
“写下想法的价值,通常与你对它有多模糊和困惑成正比。”
2. 对热点保持中立
不要被流行趋势左右。选择对你来说重要且富有成果的问题,即使它很冷门。
“热门方向更容易被理解,但价值可能更低,因为人人都在做。”