挑战Claude！小米开源MiMo Code，突破AI编程200步极限

传统的 AI 编程智能体（Coding Agent）在吃顿午饭的功夫就能搭建起一个工作原型，但在面对生产级重构时，往往会在第 30步左右陷入停滞。智能体很容易在早期锁定一个错误假设，然后不断“打补丁”，导致小错误不断累积，最终满盘皆输。

小米 MiMo AI 团队正试图解决这一痛点。他们开源了终端原生工具 MiMo Code，并声称在运行超过 200步的长任务中，其表现超越了 Anthropic 的 Claude Code。尽管这一基准来自小米的内部测试和对 576 名开发者的调查，属于自证数据，但它指明了 AI 智能体竞争的新维度。

这个数字本身并不关键，关键在于小米选择的竞争维度：**长程可靠性（Long-horizon reliability）**。在多达数百个关联步骤中维持任务的连贯性，是当前编程智能体的最新战线。行业才刚刚开始量化“耐力差距（Endurance Gap）”，即智能体在彻底放弃任务前能够坚持运行的步数。

那么，长程智能体究竟在哪些地方容易崩溃？通常有三个经常性失败模式：首先是假设过早固化，导致智能体不断为错误逻辑打补丁；其次是错误累积，例如第 40 步继承了第 12 步的错误；最后是上下文漂移，导致执行到中期时，最初的核心意图已被遗忘。这就像一个没有设置检查点（Checkpoints）的长期批处理作业，一旦崩溃只能从头再来。

为了更客观地评估这种差距，加州大学伯克利分校（UC Berkeley）RDI 实验室的 Dawn Song 教授和博士后 Yiyou Sun 联合推出了名为 Agents' Last Exam 的全新硬核基准。该测试由 250 多位行业专家设计，旨在暴露智能体的短板而非展示其长处。即使是性能最强的配置，在此基准下的得分也惨不忍睹，表明 AI 智能体距离真正独立工作仍有巨大差距。

AgentUpdate 深度解析

小米 MiMo Code 的推出，标志着 AI 编程智能体从早期的“玩具原型搭建”阶段，正式迈入解决企业级生产痛点的“长程耐力竞赛”阶段。传统的 AI 编程工具（如 Devin、Cursor）在短逻辑链路中表现惊艳，但一旦面对需要数十次编译、测试、纠错循环的复杂重构任务，便会因为“假设固化”和“上下文雪崩”而迅速崩溃。小米聚焦于“200步”以上的长程任务，并尝试引入更强的控制流与回溯机制，这切中了智能体落地最核心的痛点。然而，正如伯克利 RDI 实验室推出的 Agents' Last Exam 基准所揭示的，现有的底层大模型在面对真实世界生产级项目时，成功率仍普遍低于 50%。这表明，单靠外围的 Agent 框架封装很难产生质的突破。未来的技术演化将深度依赖于“大模型长推理能力”与“Agent 状态回退机制”的融合，只有当智能体学会像人类架构师一样在第 50 步主动否定第 10 步的架构决策并进行“版本回滚”时，真正的长程智能体时代才会到来。

挑战Claude！小米开源MiMo Code，突破AI编程200步极限

推荐阅读

AI Agent自主时代来临：传统安全日志为何捉襟见肘？

加拿大前央行行长警告：AI高度集中或引发08年式金融危机

Anthropic被迫停用大模型，印度掀起“主权AI”风暴

相关工具与资源推荐

相关技能市场

Antigravity Awesome Skills

Awesome Agent Skills

Anthropic Agent Skills

推荐插件

Agent SDK Dev

Claude Opus 4.5 Migration

Code Review