OpenAI推理模型推翻埃尔德什百年猜想，揭秘测试时计算威力

在最新一期 OpenAI 官方播客中，主持人 Andrew Maine 对话了推理研究团队的核心成员：Alexander Wei、Hongxun Wu 和 Lijie Chen。他们深入探讨了 OpenAI 推理模型如何成功推翻由传奇数学家 Paul Erdős 在80年前提出的经典组合几何学猜想——“单位距离猜想”（Unit Distance Conjecture）。

该问题属于组合几何领域。埃尔德什当年的原猜想认为，在平面上排列 n 个点并使它们之间刚好相距 1 英寸的“最优解”是将点排列在正方形网格（Square Grid）中。埃尔德什甚至在上世纪为此悬赏了 500美元。然而，OpenAI 的推理模型证明了正方形网格根本不是最优解，并利用高深的代数数论（Class Field Theory）构建了一种全新的、高度对称的几何设计，大大突破了原有的数量渐进界限。当模型首次跑出结果时，团队的第一反应是不敢相信，在公司内部高水平数学家进行长达一天的交叉审查且找不到任何漏洞后，整个团队陷入了失眠般的兴奋之中。

与以往“脱口而出”的自回归模型不同，新一代推理模型引入了测试时计算（Test-time Compute）机制。这意味着模型在输出最终答案前，被允许分配更多的计算预算（Compute Budget）来进行路径规划、自我纠错和深度思考。数据显示，随着思考时间的延长，模型解决极难数学问题的正确率呈指数级上升，最终在此问题上达到了近 50% 的成功率。值得注意的是，该模型是一个未针对数学做任何微调的通用模型，研究团队只是拿极难的数学题来测试其能力的上限。

运行细节展示了模型的惊人智能与趣味性。例如，在联网检索以理解问题时，模型做的第一件事竟然是在剑桥词典中查阅“单位（Unit）”的精确定义，展现了极强的自我锚定（Grounding）与澄清能力。虽然最终结果惊艳，但模型生成的思维链（Chain of Thought）长达 125页，记录了大量失败的、极具创意的尝试，最终将数论与组合几何这两个看似毫无关联的遥远领域完美结合在了一起。

这一突破不仅限于解决一道数学题，更直接推动了人类学术的前沿。在模型给出构造逻辑后，人类数学家不仅在此基础上优化了边界，还在短短一周内顺势推翻了另一个重要的数学猜想——实数条件下的“和积猜想”。研究人员强调，AI 在此扮演的是“知识连接者”的使能角色，而非替代者。人类的优势在于从零构建像 P vs NP 这样的宏大理论体系，而 AI 能在海量空间中进行跨学科搜索。为了避免制造无意义的“AI垃圾学术”，团队更倾向于将此高阶推理能力开放给全球科学家，去定向解决真正重要的问题。

展望未来，团队希望模型能挑战计算机科学的圣杯问题 P vs NP，并探索如何用 AI 自主研究 AI 进化。此外，该技术在密码学安全测试和量子纠错码的设计中也蕴含巨大潜力。对于科研人员，研究员建议不要试图把问题拆得太细去喂给模型，因为人类直觉的拆解往往带有偏见，直接问宏观问题反而能让 AI 给出出其不意的盲区解法；在模型给出复杂证明后，也可以像对待耐心的导师一样逐行追问其思考逻辑。

AgentUpdate 深度解析

此次 OpenAI 推理模型成功颠覆百年数学猜想，标志着 AI 正在从“基于检索的感知体”演进为“基于系统二思维的逻辑推理体”。这为整个 AI Agent 生态带来了划时代的变革：首先，测试时计算（Test-time Compute）的成熟，证明了强化学习（RL）驱动的自我修正与多路径探索，能够完全取代传统 Agent 架构中依靠人工繁琐拼接的复杂 Prompt 链或单调的外挂 Agent 框架。其次，生成 125 页思维链的能力，表明未来 Agent 的核心壁垒将从单纯的“长上下文窗口”转移至“长时间跨度内的计算分配效率（Compute Allocation Efficiency）”。这种通用推理 Agent 的崛起，不仅加速了交叉学科科学研究的民主化，更将重塑人机协作的范式，即人类负责“问题定义与顶层架构设计”，而 Agent 负责“跨领域真理探索与盲区突破”。

OpenAI推理模型推翻埃尔德什百年猜想，揭秘测试时计算威力

推荐阅读

对话OpenAI强化学习主管：从黑洞物理到o1推理模型

实战演练：我在生产项目中使用 Claude Code 的真实体验

Meta推出AI生成式“标题党”信息流：个性化虚构内容引争议

相关工具与资源推荐

相关技能市场

Agent Skills Catalog