Rich Sutton 的 AI 新路径

核心理念：为何是强化学习？

Sutton 的初心很简单：创造一个能与世界互动、从经验中学习、并拥有明确目标的智能系统。这正是强化学习（RL）的本质。

主动交互，试错学习，最大化奖励（目标驱动）。

被动学习，识别模式，没有自身目标。

“AI 早期曾想实现交互目标，但后来‘滑向’了更清晰简单的模式识别，并逐渐忘记了初心。”

✓ 能够持续学习（Continual Learning），实时适应世界变化。

✗ 无法学习非线性关系和创造新特征。

“能快速适应，但能力有限。”

✓ 能够学习强大的非线性映射和复杂表征。

✗ 牺牲了持续学习能力，采用“瞬时学习”（Transient Learning）。

“在工厂学习，然后冻结。ChatGPT 在使用中不会学习。”

AI 领域过分专注于深度学习能做到的事（在固定数据集上取得惊人成果），而忽视了它做不到的事（持续学习），因为前者更容易发表论文、获得成功。这阻碍了真正通用智能的发展。

Sutton 认为，是时候打破这种权衡了。他的目标是实现持续性的非线性学习（Continual Nonlinear Learning）。

“我给了他们40年时间去解决这个问题，但他们没有。现在我必须自己动手了。这听起来很傲慢，但我真的希望我本不必这么做。”

Sutton 尖锐地指出，反向传播（Backprop）本身并不能学到通用且泛化能力强的表征。它只是在梯度下降的驱动下，找到能解决当前特定任务的特征。我们需要新的算法和目标函数来学习真正有意义的世界模型。

一个深刻且可能“令人不适”的观点：所有复杂、高级的目标（如事业、家庭），最终都可以被视为为了最大化一个单一、低级的标量奖励信号（如快乐、痛苦、社会认同）而产生的子问题。从最简单的“汁液”中，涌现出最抽象的概念。

我们将更深刻地理解自身，可能带来不适感，但最终会促进自我认知。人与其他智能的界限将变得模糊。

心智增强（Augmentation）成为可能，我们可以拥有更好的记忆和思维能力。这将引发巨大的经济变革。

我们可能超越语言这种低带宽的线性媒介，实现更直接、更高效的思想交流。

每天记录你的想法，挑战并发展它们。这能帮助你理清思路，找到真正有价值的方向。

“写下想法的价值，通常与你对它有多模糊和困惑成正比。”

不要被流行趋势左右。选择对你来说重要且富有成果的问题，即使它很冷门。

“热门方向更容易被理解，但价值可能更低，因为人人都在做。”