JetBrains发布Mellum2：12B MoE架构，推理速度提升超2倍

JetBrains近日正式发布了Mellum2，这是一款从零开始构建、专门针对自然语言与代码处理任务优化的混合专家（MoE）模型。该模型总参数量为12B，但在推理过程中每个token仅激活2.5B参数，极大地提升了模型在生产环境中的吞吐量并显著降低了延迟。

Mellum2继承了JetBrains在代码补全领域的深厚积淀，并将能力扩展至更广泛的软件工程与通用文本处理任务。在当前AI应用日益依赖多模型协同（如路由、RAG、规划及工具调用）的背景下，Mellum2的低延迟优势使其成为处理这些中台任务的理想选择。

架构上，Mellum2通过MoE设计在保持高模型容量的同时实现了极致的轻量化。相比同等规模的开源模型，Mellum2在保证基准测试性能相当的前提下，推理速度提升超过两倍。其核心应用场景涵盖：模型路由与编排、RAG管道中的上下文压缩与摘要、AI Agent子任务（规划、校验、代码转换）以及对隐私要求极高的本地化私有部署。

【AgentUpdate 深度解析】 Mellum2的出现标志着AI Agent基础设施向“专模型专用”趋势的进一步迈进。在Agent系统中，并非所有任务都需要像Llama 3.1 70B或Claude 3.5 Sonnet这样庞大的模型，频繁调用大模型不仅成本昂贵，且在高并发场景下存在严重的延迟瓶颈。Mellum2采用12B MoE架构，仅激活2.5B参数，这种极致的效率平衡（Cost-to-Performance Ratio）为AI Agent生态提供了一个关键的“中间件”角色。横向对比来看，如Mixtral 8x7B虽然强大，但其在边缘或复杂Agent编排场景下的部署负担较重；而Mellum2专注于代码与逻辑任务的特化设计，使其在作为Prompt分类器、工具路由逻辑及复杂工作流中的规划子代理（Sub-agent）时，表现出极高的鲁棒性。随着Agent从单一智能体向多代理协作（Multi-Agent System）演进，这种高效的小参数模型将成为降低Agent系统运行成本、提升实时响应体验的核心基础设施，对于构建企业级自动化生产线具有极高的战略价值。

JetBrains发布Mellum2：12B MoE架构，推理速度提升超2倍

推荐阅读

AI巨头Anthropic正式提交IPO申请，估值近万亿美元

AI气象黑马：WindBorne发布WeatherMesh-6，精度完胜欧洲权威模型

Bedrock Agent支持引用自定义密钥，提升安全管控

相关工具与资源推荐

相关技能市场

Agent Skills

Google Agent Skills