关于泛化的一点观察

Ilya Sutskever关于无监督学习、压缩与神经网络的深刻洞见

视频来源: YouTube
🏷️ 分类: 科学 技术
🔖 标签: #人工智能 #无监督学习 #神经网络 #压缩理论 #柯尔莫哥洛夫复杂度 #iGPT

第一部分:监督学习 - “简单”的问题

监督学习理论成熟,为我们提供了成功的数学保证:只要模型在训练集上表现良好,且不过于复杂,它在未见过的数据上也会表现出色。

IF (训练误差低 & 参数量 < 数据量)

THEN (测试误差低)

// 核心前提: 训练与测试数据同分布

输入 (X)

模型

输出 (Y)

第二部分:无监督学习 - 充满“魔法”的领域

?

无监督学习旨在从无标签数据中发现隐藏结构。但它为何有效?我们优化一个目标(如去噪或重构),却期望在另一个完全不同的任务上获得提升。

“这看起来完全像一个遥不可及的现象。你优化一个目标,却关心另一个目标。这怎么可能?魔法吗?”

核心洞见:将无监督学习视为压缩

数据集 X

(无监督数据)

+

数据集 Y

(下游任务数据)

联合压缩思想实验

一个足够好的压缩器 C,在联合压缩 X 和 Y 时,会利用 X 中的内部模式来更有效地压缩 Y,反之亦然。这种通过联合压缩获得的额外压缩量,就是模型发现的共享结构

C(X, Y) < C(X) + C(Y)

终极理论:柯尔莫哥洛夫复杂度 (K)

K-复杂度是理论上的终极压缩器,它定义了输出某个数据的最短程序长度。虽然它不可计算,但为我们提供了一个完美的理论目标。

核心类比:

大型神经网络的训练过程 (SGD) 就是在庞大的程序空间(网络架构)中进行搜索,这可以被看作是对终极K-压缩器的微型化、可计算的近似

这解释了为什么更大的模型通常效果更好:它们更接近这个无所不能的理论压缩器。

实验验证:iGPT

为了在非文本领域验证压缩理论,iGPT被提出。它将图像看作像素序列,并训练一个Transformer来做“下一像素预测”——一个纯粹的压缩/最大似然任务。

结果表明,压缩质量(更低的预测损失)与特征质量(更高的分类准确率)直接相关

iGPT 性能:压缩越好,特征越好

结论与开放性问题

压缩理论为无监督学习提供了一个坚实的数学基础,将其从“魔法”转变为一个可度量、可优化的“遗憾最小化”问题。我们通过构建更好的压缩器(即更大、更优的神经网络),来不断从海量无标签数据中榨取有价值的预测信息。

待解之谜:

理论并未直接解释为何模型内部会形成线性可分的表征。Ilya推测,自回归模型(如iGPT)比BERT等模型更能强制学习长距离依赖,从而可能产生更高质量的特征。