SOURCE // PODCASTS

对话OpenAI强化学习主管:从黑洞物理到o1推理模型

对话OpenAI强化学习主管:从黑洞物理到o1推理模型

在近期的一期访谈中,主持人 Matt Turck 对话了 OpenAI “强化学习基础团队”(Foundations of Reinforcement Learning)的主管 Dan Roberts。Dan 拥有 MIT 理论物理学博士背景,曾研究黑洞与量子引力,后转向 AI 领域。本场对话围绕 AI 在数学领域的突破(如破解埃尔德什 Erdos 猜想)、强化学习(RL)的本质、思维链(CoT)测试时计算(Test-time compute),以及物理学对理解 AI 的启示展开。

Dan 领导的团队致力于研究强化学习的科学原理。在 OpenAI 推出 o1 等推理模型之前,他们就在内部探索如何将计算量转化为智能、寻找强化学习的扩展定律(Scaling Laws)。从物理学转型 AI 的 Dan 认为,深度学习本质上是一种“统计科学”,宇宙和 AI 都遵循统计规律。他曾于2017年加入 FAIR,用物理学工具拆解深度学习,并合著了《深度学习理论原理》一书,两年前正式加入 OpenAI

在谈到近期 AI 在数学界破解埃尔德什(Erdos)单位距离猜想的突破时,Dan 对比了不同的技术路径。与 DeepMind 采用 Lean 等形式化语言(Auto-formalization)进行严密计算机代码验证的路径不同,OpenAI 采用了非形式化(自然语言)路径。模型直接理解自然语言数学题,像人类一样用公式和自然语言推理,通过大规模计算进行数小时的超长路径探索,将猜想与代数数论跨界结合,成功证伪了该猜想。这种方式更契合人类思维,但验证(Verification)难度更高。

为了通俗解释 RL,Dan 提出了著名的“马里奥游戏”比喻。相比于只是在一旁观看模仿的监督学习(Supervised Learning)强化学习(RL)是让模型直接拿到手柄去玩,在反复撞墙和试错中接受反馈。面对如国际象棋般漫长且结果滞后的稀疏奖励(Sparse Rewards),RL 能够通过构建“课程(Curriculum)”,让模型在适合自身当前水平的维度上迭代试错,最终掌握原本不懂的知识。

在 LLM 领域,早期的 RLHF(人类反馈强化学习)通过收集人类偏好构建“奖励模型(Reward Model)”,让模型学会听话和礼貌。Dan 结合他与 OpenAI 科学家 Noam Brown 早期参加扑克机器人大赛的趣闻,对比了靠“榨取(Exploit)”弱手盈利与靠博弈论构建“纳什均衡不败策略”的两种路径。他强调,在解决重大科学发现时,模型不能一味“榨取”已知,而必须具备极强的探索精神(Exploration)

Dan 反驳了 Yann LeCun “预训练是蛋糕,RL 只是樱桃”的说法,认为在计算量充沛的时代,RL 才是蛋糕本体。预训练提供了底层能力,而 RL 则是将计算量转化为智能的核心。通过引入测试时计算(Test-time compute)思维链(CoT),模型在推理时不再是单次前向传播立刻输出,而是像人类打草稿一样在语言空间里重复利用权重,将极庞大的计算资源倾注在单个难题上,甚至可以为解决复杂的科学猜想连续自主思考数年。

在谈到未来泛化时,Dan 提到了可验证奖励(Verifiable Reward)的重要性,即防止模型在追求奖励的过程中“走捷径(Reward Hack)”。建立起可自动化、低偏差的验证反馈闭环,是强化学习从数学、编程等强逻辑领域走向更广泛科学探索的关键。

AgentUpdate 深度解析

从 Dan Roberts 的分享中,我们可以预见 AI Agent 生态的下一次演进。长久以来,Agent 的局限在于过度依赖静态提示词和缺乏自主纠错的“慢思考”能力。而 o1 及其背后的“测试时计算”和“强化学习”,本质上是赋予了 Agent 一个动态认知沙盘。横向对比 DeepMind 的形式化验证路线,OpenAI 选择的自然语言强化学习路径更容易向通用场景迁移。这预示着未来的 AI Agent 将不再只是简单的 API 管道调用者,而是能够在大规模推理空间中自主设定目标、在无监督环境中自我试错的独立研究实体。Agent 开发者需要从“规则设计者”转变为“奖励函数设计者”,这也将倒逼生态在可验证奖励机制上进行更底层的革新。