传统的 AI 编程智能体(Coding Agent)在吃顿午饭的功夫就能搭建起一个工作原型,但在面对生产级重构时,往往会在第 30步 左右陷入停滞。智能体很容易在早期锁定一个错误假设,然后不断“打补丁”,导致小错误不断累积,最终满盘皆输。
小米 MiMo AI 团队正试图解决这一痛点。他们开源了终端原生工具 MiMo Code,并声称在运行超过 200步 的长任务中,其表现超越了 Anthropic 的 Claude Code。尽管这一基准来自小米的内部测试和对 576 名开发者的调查,属于自证数据,但它指明了 AI 智能体竞争的新维度。
这个数字本身并不关键,关键在于小米选择的竞争维度:**长程可靠性(Long-horizon reliability)**。在多达数百个关联步骤中维持任务的连贯性,是当前编程智能体的最新战线。行业才刚刚开始量化“耐力差距(Endurance Gap)”,即智能体在彻底放弃任务前能够坚持运行的步数。
那么,长程智能体究竟在哪些地方容易崩溃?通常有三个经常性失败模式:首先是假设过早固化,导致智能体不断为错误逻辑打补丁;其次是错误累积,例如第 40 步继承了第 12 步的错误;最后是上下文漂移,导致执行到中期时,最初的核心意图已被遗忘。这就像一个没有设置检查点(Checkpoints)的长期批处理作业,一旦崩溃只能从头再来。
为了更客观地评估这种差距,加州大学伯克利分校(UC Berkeley)RDI 实验室的 Dawn Song 教授和博士后 Yiyou Sun 联合推出了名为 Agents' Last Exam 的全新硬核基准。该测试由 250 多位行业专家设计,旨在暴露智能体的短板而非展示其长处。即使是性能最强的配置,在此基准下的得分也惨不忍睹,表明 AI 智能体距离真正独立工作仍有巨大差距。
小米 MiMo Code 的推出,标志着 AI 编程智能体从早期的“玩具原型搭建”阶段,正式迈入解决企业级生产痛点的“长程耐力竞赛”阶段。传统的 AI 编程工具(如 Devin、Cursor)在短逻辑链路中表现惊艳,但一旦面对需要数十次编译、测试、纠错循环的复杂重构任务,便会因为“假设固化”和“上下文雪崩”而迅速崩溃。小米聚焦于“200步”以上的长程任务,并尝试引入更强的控制流与回溯机制,这切中了智能体落地最核心的痛点。然而,正如伯克利 RDI 实验室推出的 Agents' Last Exam 基准所揭示的,现有的底层大模型在面对真实世界生产级项目时,成功率仍普遍低于 50%。这表明,单靠外围的 Agent 框架封装很难产生质的突破。未来的技术演化将深度依赖于“大模型长推理能力”与“Agent 状态回退机制”的融合,只有当智能体学会像人类架构师一样在第 50 步主动否定第 10 步的架构决策并进行“版本回滚”时,真正的长程智能体时代才会到来。