Tech Unheard 播客精华

Mark Chen:探索 AI 的新前沿

OpenAI 首席研究官(Chief Research Officer)Mark Chen 与 ARM CEO Rene Haas 对话,深入探讨 AI 模型的演变、Transformer 的主导地位以及通往 AGI 的未来之路。

🏷️ 分类: 技术 科学
🔖 标签: #AI #Transformer #AGI #OpenAI #多模态模型 #强化学习

从金融到 AI 前沿的跨界旅程

Mark Chen 的多元背景——跨越东西方的教育、数学基础以及高频交易的严格训练——为他在 OpenAI 的前沿研究奠定了独特的基础。

跨文化教育背景

出生于美国,父母在贝尔实验室工作。12岁左右移居台湾完成中学教育,融合了美式自由精神与亚洲式学科规训。

MIT:数学与计算机科学

在麻省理工学院主修数学,直到大学后期才深入接触编程,并迅速沉迷其中。

金融与高频交易 (约 5-6 年)

在 Jane Street 和高频交易公司工作。这段经历教会了他在实验中的严谨性(Rigor),这对 AI 研究至关重要。

转折点 (2017-2018)

寻求更有影响力的工作,并受到 AlphaGo 的启发与震撼(“既鼓舞人心又令人恐惧”)。开始投入强化学习项目。

加入 OpenAI (2018至今)

以驻场研究员身份加入。领导前沿研究(Frontiers Research),专注于多模态模型和推理,现任首席研究官。

推动前沿:多模态的开拓者

Mark 在 OpenAI 领导了多个开创性项目,核心聚焦于将 Transformer 架构应用于多模态,打破文本与视觉之间的界限。

ImageGPT

关键概念验证:证明了 Transformer 可以用于图像生成,将像素视为“语言”,为后续工作铺平道路。

DALL-E

领导团队开发了开创性的文本到图像生成模型,实现了可控的图像创作。

Codex

开发了强大的代码生成模型,驱动了 AI 编程辅助工具的革命。

GPT-4/4o

将视觉感知能力融入 GPT-4,并推动了完全集成的多模态方法(音频、图像、文本统一处理)。

技术核心:Transformer 与规模驱动力

为什么 Transformer 持续主导?

简洁性
(Simplicity)
+
表达力
(Expressivity)

Mark 认为 Transformer 在两者间取得了绝佳平衡:结构简单易于扩展和工程化,同时提供了强大的混合原语。

生态系统的固化效应:

“Transformer 存在的时间越长,围绕它的协同设计(如专用芯片、优化内核)就越多,这使得新架构超越它的门槛越来越高。”

AI 进步的双引擎

虽然大规模计算至关重要,但 Mark 指出:“算法洞察和效率提升的贡献,略微超过了计算能力的贡献。”

* 概念图示:示意性地表示算法贡献略高于算力。

规模法则与“涌现能力”的惊喜

AI 发展中最令人惊讶的是“涌现能力”(Emergent Capabilities)。Mark 指出,你可以预测模型的精度(Perplexity),但无法预测随着精度提升会解锁哪些新能力。

GPT 模型的演进与能力涌现

通往 AGI:推理与创造力

推理:数据效率的关键

未来的重点是推理(Reasoning)模型。它们能更高效地从少量数据中学习,这是解决数据稀疏的专业领域(如药物发现、芯片设计)的关键。

模型在数学和编程方面展现出的精通证明了这种潜力。

AI 的“发明”能力被低估

Mark 持有一个略带争议的观点:AI 的发明能力比我们想象的要强。在困难的、反模式(anti-pattern)的算法竞赛中,模型经常展现出意料之外的创造性。

“有多少发明实际上是‘插值’(Interpolation)?我认为这个比例比我们想象的要高。”

AGI 怀疑论的转变

Mark 自己在加入 OpenAI 时也曾是 AGI 怀疑论者。但“真正看到模型的进展和能力,才让我大开眼界。” 他观察到,金融界(更依赖延迟、私有数据等外部因素)普遍比科技界对 AGI 的变革性更持怀疑态度。

未来景观:超越屏幕,进入现实

展望未来,Mark Chen 认为 AI 的发展方向将聚焦于与数字世界和物理世界的互动,并重塑生产力。

AI Agent (智能体)

未来的“Operator”将成为数字生活的统一接口,能够理解屏幕输入并执行键盘/鼠标操作,最终可能取代传统的应用和操作系统界面。

Embodiment (具身智能)

Agent 的自然延伸是机器人技术。为机器人在现实世界中行动构建 AI 大脑。Mark 认为硬件的发展速度可能成为这一领域的瓶颈。

加速生产力与创业

AI 将成为杠杆,使专业人士的生产力提高 2-3 倍。通过实现自然语言编程(让模型构建应用),AI 将极大地加速创业进程。

“现在是进行研究的丰收时期,我们(的进展)仅仅受限于我们能想出的点子的数量。”

— Mark Chen