碾压OpenAI！谷歌DeepMind新AI攻克9个数学界终极难题

AI 领域的数学竞赛正在急剧升温。就在 OpenAI 宣布其 AI 破解了一个有着 80 年历史的数学难题（厄多斯猜想）并登上各大媒体头条后不久，谷歌 DeepMind 悄无声息地给出了更震撼的回应：其自主研发的 AlphaProof Nexus 系统一口气攻克了 9 个悬而未决的“厄多斯问题”（Erdős problems），在数量上实现了对 OpenAI 的 9 比 1 碾压。

厄多斯问题被认为是数学界最难解答的未解之谜。AlphaProof Nexus 此次不仅攻克了其中的 9 个开放性问题（其中包括两个已经悬而未决长达 56 年的难题），而且每个问题的解决成本仅为几百美元。此外，该系统还证明了来自“整数组级在线百科全书”（OEIS）的 44 个开放性猜想。相比之下，OpenAI 此前的突破仅是推翻了单个 80 年历史的厄多斯猜想，且 OpenAI 数月前曾撤回过一份关于解决 10 个新问题的声明。

在技术实现上，AlphaProof Nexus 采用了“大语言模型（LLM）+ 形式化证明辅助工具 Lean”的架构，专门用于生成机器可验证的数学证明。该系统涵盖了组合数学和图论等多个前沿领域。其工作流程形成了一个闭环：LLM 负责生成证明草稿，随后在 Lean 中进行严格的形式化验证。如果未通过，系统会进行自我修正并重复这一过程，直至生成完全正确的证明。这种基于强化学习和自动形式验证的方法，正推动 AI 从单纯的信息检索转向真正的原创性科学发现。不过研究人员也指出，一个更简单的智能体版本虽然达到了类似的效果，但成本更高；而对于那些需要构建全新数学体系的极难问题，目前的 AI 依然无能为力。

【AgentUpdate 深度解析】 谷歌 AlphaProof Nexus 的突破，标志着 AI Agent 正在从“基于概率的文本生成”迈向“基于逻辑的科学探索”。与 OpenAI 的大模型单点突破不同，DeepMind 采用的“LLM + Lean 形式化验证器”的双系统架构（System 1 + System 2），是未来推理型 Agent 的终极范式。LLM 作为“直觉系统”负责提出创意和生成候选证明，而 Lean 则是绝对严谨的“理性沙盒”，提供无差错的物理/逻辑反馈。这种闭环使得 Agent 能够在完全没有人类标注数据的情况下，通过强化学习进行自我博弈和进化。未来，这种“LLM + 形式化验证”的模式将从数学证明快速外溢至智能合约审计、芯片设计、新药研发等高度容错率低的硬科技领域，真正开启 Agent 赋能科研（AI for Science）的新纪元。

碾压OpenAI！谷歌DeepMind新AI攻克9个数学界终极难题

推荐阅读

43秒对抗30分钟：深度剖析 Claude Code“计划模式”

我把 Claude Code 打包成 Zsh 函数：避坑两周的设计抉择

拒绝代码崩溃：Claude Code 与“规格驱动开发”实战指南