⚡ News

碾压OpenAI!谷歌DeepMind新AI攻克9个数学界终极难题

碾压OpenAI!谷歌DeepMind新AI攻克9个数学界终极难题

AI 领域的数学竞赛正在急剧升温。就在 OpenAI 宣布其 AI 破解了一个有着 80 年历史的数学难题(厄多斯猜想)并登上各大媒体头条后不久,谷歌 DeepMind 悄无声息地给出了更震撼的回应:其自主研发的 AlphaProof Nexus 系统一口气攻克了 9 个悬而未决的“厄多斯问题”(Erdős problems),在数量上实现了对 OpenAI 的 9 比 1 碾压。

厄多斯问题被认为是数学界最难解答的未解之谜。AlphaProof Nexus 此次不仅攻克了其中的 9 个开放性问题(其中包括两个已经悬而未决长达 56 年的难题),而且每个问题的解决成本仅为几百美元。此外,该系统还证明了来自“整数组级在线百科全书”(OEIS)的 44 个开放性猜想。相比之下,OpenAI 此前的突破仅是推翻了单个 80 年历史的厄多斯猜想,且 OpenAI 数月前曾撤回过一份关于解决 10 个新问题的声明。

在技术实现上,AlphaProof Nexus 采用了“大语言模型(LLM)+ 形式化证明辅助工具 Lean”的架构,专门用于生成机器可验证的数学证明。该系统涵盖了组合数学和图论等多个前沿领域。其工作流程形成了一个闭环:LLM 负责生成证明草稿,随后在 Lean 中进行严格的形式化验证。如果未通过,系统会进行自我修正并重复这一过程,直至生成完全正确的证明。这种基于强化学习和自动形式验证的方法,正推动 AI 从单纯的信息检索转向真正的原创性科学发现。不过研究人员也指出,一个更简单的智能体版本虽然达到了类似的效果,但成本更高;而对于那些需要构建全新数学体系的极难问题,目前的 AI 依然无能为力。

【AgentUpdate 深度解析】 谷歌 AlphaProof Nexus 的突破,标志着 AI Agent 正在从“基于概率的文本生成”迈向“基于逻辑的科学探索”。与 OpenAI 的大模型单点突破不同,DeepMind 采用的“LLM + Lean 形式化验证器”的双系统架构(System 1 + System 2),是未来推理型 Agent 的终极范式。LLM 作为“直觉系统”负责提出创意和生成候选证明,而 Lean 则是绝对严谨的“理性沙盒”,提供无差错的物理/逻辑反馈。这种闭环使得 Agent 能够在完全没有人类标注数据的情况下,通过强化学习进行自我博弈和进化。未来,这种“LLM + 形式化验证”的模式将从数学证明快速外溢至智能合约审计、芯片设计、新药研发等高度容错率低的硬科技领域,真正开启 Agent 赋能科研(AI for Science)的新纪元。

↗ 阅读原文