小米最新推出的开源大模型MiMo-V2.5-Pro,在内部测试中表现惊艳,能够在不到五小时内编写出一个完整的编译器,其编码基准测试结果与Anthropic的Claude Opus 4.6旗鼓相当。更值得关注的是,该模型在完成任务时消耗的令牌(token)数量远低于其西方竞争对手。
MiMo-V2.5-Pro是一款混合专家(Mixture-of-Experts, MoE)模型,这意味着在每次请求中,只有模型的一部分被激活,而非整个模型。它拥有总计1.02万亿参数,每次请求激活420亿参数。MiMo团队专为需要运行数小时并涉及数千次工具调用的长时间任务设计了这一版本。
该模型的上下文窗口能力处于当前技术的顶尖水平:主版本支持一次性处理高达一百万个令牌,而未经重新训练的基础版本也能达到25.6万个令牌。
小米通过三个演示展示了MiMo-V2.5-Pro相较于上一版本的显著提升。在首个演示中,团队要求模型完成一个北京大学课程的完整编译器项目,小米表示,这项任务通常需要一名计算机科学专业的学生花费数周时间。
MiMo-V2.5-Pro历时4.3小时,分四个阶段完成了编译器项目,并将测试覆盖率从首次编译时的59%提升至完美的100%。模型在4.3小时内通过672次工具调用完成了该项目,并在隐藏测试套件中取得了233分满分的成绩。小米指出,其方法论是亮点所在:模型首先将整个开发流程搭建为脚手架(scaffolding),随后分阶段逐层推进。首次编译运行就已通过了233个测试中的137个。在后续的一次重构(refactoring)阶段,模型引入了一个回归(regression),但它能够自主诊断并修复了问题。
在第二个演示中,MiMo-V2.5-Pro仅凭少量提示,就自主编写了一个包含约8000行代码的桌面视频编辑器。该模型自主运行了11.5小时,并进行了约1870次工具调用。
第三个演示中,小米将MiMo-V2.5-Pro与一个电路模拟器(通过Claude Code)连接,并要求其设计一个稳压器。在一小时内,设计结果同时满足了所有六项技术规格,其中四项的性能比模型的初稿提高了大约一个数量级。
小米主打MiMo-V2.5-Pro的性能与令牌消耗比。在小米自家的ClawEval代理基准测试中,该模型以每次任务运行约7万个令牌的消耗,达到了64%的得分。据团队介绍,这比Claude Opus 4.6、Gemini 3.1 Pro和GPT-5.4在达到相似表现时所需的令牌量减少了40%到60%。
在SWE-Bench Pro编码基准测试中,MiMo-V2.5-Pro与Claude Opus 4.6表现不相上下,而在Terminal-Bench 2.0上,小米模型则略胜一筹。具体编码基准测试分数显示,该模型在SWE-bench Verified上获得78.9分,SWE-Bench Pro上获得57.2分,Terminal-Bench 2.0上获得68.4分。