对话OpenAI强化学习主管：从黑洞物理到o1推理模型

在近期的一期访谈中，主持人 Matt Turck 对话了 OpenAI “强化学习基础团队”（Foundations of Reinforcement Learning）的主管 Dan Roberts。Dan 拥有 MIT 理论物理学博士背景，曾研究黑洞与量子引力，后转向 AI 领域。本场对话围绕 AI 在数学领域的突破（如破解埃尔德什 Erdos 猜想）、强化学习（RL）的本质、思维链（CoT）与测试时计算（Test-time compute），以及物理学对理解 AI 的启示展开。

Dan 领导的团队致力于研究强化学习的科学原理。在 OpenAI 推出 o1 等推理模型之前，他们就在内部探索如何将计算量转化为智能、寻找强化学习的扩展定律（Scaling Laws）。从物理学转型 AI 的 Dan 认为，深度学习本质上是一种“统计科学”，宇宙和 AI 都遵循统计规律。他曾于2017年加入 FAIR，用物理学工具拆解深度学习，并合著了《深度学习理论原理》一书，两年前正式加入 OpenAI。

在谈到近期 AI 在数学界破解埃尔德什（Erdos）单位距离猜想的突破时，Dan 对比了不同的技术路径。与 DeepMind 采用 Lean 等形式化语言（Auto-formalization）进行严密计算机代码验证的路径不同，OpenAI 采用了非形式化（自然语言）路径。模型直接理解自然语言数学题，像人类一样用公式和自然语言推理，通过大规模计算进行数小时的超长路径探索，将猜想与代数数论跨界结合，成功证伪了该猜想。这种方式更契合人类思维，但验证（Verification）难度更高。

为了通俗解释 RL，Dan 提出了著名的“马里奥游戏”比喻。相比于只是在一旁观看模仿的监督学习（Supervised Learning），强化学习（RL）是让模型直接拿到手柄去玩，在反复撞墙和试错中接受反馈。面对如国际象棋般漫长且结果滞后的稀疏奖励（Sparse Rewards），RL 能够通过构建“课程（Curriculum）”，让模型在适合自身当前水平的维度上迭代试错，最终掌握原本不懂的知识。

在 LLM 领域，早期的 RLHF（人类反馈强化学习）通过收集人类偏好构建“奖励模型（Reward Model）”，让模型学会听话和礼貌。Dan 结合他与 OpenAI 科学家 Noam Brown 早期参加扑克机器人大赛的趣闻，对比了靠“榨取（Exploit）”弱手盈利与靠博弈论构建“纳什均衡不败策略”的两种路径。他强调，在解决重大科学发现时，模型不能一味“榨取”已知，而必须具备极强的探索精神（Exploration）。

Dan 反驳了 Yann LeCun “预训练是蛋糕，RL 只是樱桃”的说法，认为在计算量充沛的时代，RL 才是蛋糕本体。预训练提供了底层能力，而 RL 则是将计算量转化为智能的核心。通过引入测试时计算（Test-time compute）与思维链（CoT），模型在推理时不再是单次前向传播立刻输出，而是像人类打草稿一样在语言空间里重复利用权重，将极庞大的计算资源倾注在单个难题上，甚至可以为解决复杂的科学猜想连续自主思考数年。

在谈到未来泛化时，Dan 提到了可验证奖励（Verifiable Reward）的重要性，即防止模型在追求奖励的过程中“走捷径（Reward Hack）”。建立起可自动化、低偏差的验证反馈闭环，是强化学习从数学、编程等强逻辑领域走向更广泛科学探索的关键。

AgentUpdate 深度解析

从 Dan Roberts 的分享中，我们可以预见 AI Agent 生态的下一次演进。长久以来，Agent 的局限在于过度依赖静态提示词和缺乏自主纠错的“慢思考”能力。而 o1 及其背后的“测试时计算”和“强化学习”，本质上是赋予了 Agent 一个动态认知沙盘。横向对比 DeepMind 的形式化验证路线，OpenAI 选择的自然语言强化学习路径更容易向通用场景迁移。这预示着未来的 AI Agent 将不再只是简单的 API 管道调用者，而是能够在大规模推理空间中自主设定目标、在无监督环境中自我试错的独立研究实体。Agent 开发者需要从“规则设计者”转变为“奖励函数设计者”，这也将倒逼生态在可验证奖励机制上进行更底层的革新。