SOURCE // NEWS

JetBrains发布Mellum2:12B MoE架构,推理速度提升超2倍

JetBrains发布Mellum2:12B MoE架构,推理速度提升超2倍

JetBrains近日正式发布了Mellum2,这是一款从零开始构建、专门针对自然语言与代码处理任务优化的混合专家(MoE)模型。该模型总参数量为12B,但在推理过程中每个token仅激活2.5B参数,极大地提升了模型在生产环境中的吞吐量并显著降低了延迟。

Mellum2继承了JetBrains在代码补全领域的深厚积淀,并将能力扩展至更广泛的软件工程与通用文本处理任务。在当前AI应用日益依赖多模型协同(如路由、RAG、规划及工具调用)的背景下,Mellum2的低延迟优势使其成为处理这些中台任务的理想选择。

架构上,Mellum2通过MoE设计在保持高模型容量的同时实现了极致的轻量化。相比同等规模的开源模型,Mellum2在保证基准测试性能相当的前提下,推理速度提升超过两倍。其核心应用场景涵盖:模型路由与编排、RAG管道中的上下文压缩与摘要、AI Agent子任务(规划、校验、代码转换)以及对隐私要求极高的本地化私有部署。

【AgentUpdate 深度解析】 Mellum2的出现标志着AI Agent基础设施向“专模型专用”趋势的进一步迈进。在Agent系统中,并非所有任务都需要像Llama 3.1 70B或Claude 3.5 Sonnet这样庞大的模型,频繁调用大模型不仅成本昂贵,且在高并发场景下存在严重的延迟瓶颈。Mellum2采用12B MoE架构,仅激活2.5B参数,这种极致的效率平衡(Cost-to-Performance Ratio)为AI Agent生态提供了一个关键的“中间件”角色。横向对比来看,如Mixtral 8x7B虽然强大,但其在边缘或复杂Agent编排场景下的部署负担较重;而Mellum2专注于代码与逻辑任务的特化设计,使其在作为Prompt分类器、工具路由逻辑及复杂工作流中的规划子代理(Sub-agent)时,表现出极高的鲁棒性。随着Agent从单一智能体向多代理协作(Multi-Agent System)演进,这种高效的小参数模型将成为降低Agent系统运行成本、提升实时响应体验的核心基础设施,对于构建企业级自动化生产线具有极高的战略价值。