⚡ News

Cohere发布Command A+:两张H100即可运行的MoE模型

Cohere发布Command A+:两张H100即可运行的MoE模型

Cohere 近日正式发布了全新开源大模型 Command A+,旨在为企业级 Agent(智能体)工作流提供强劲支持。该模型采用 Apache 2.0 开源协议,是一种混合专家(MoE)模型,专为高性能 Agent 任务打造,且计算开销极低。Command A+ 在推理、Agent 工作流、检索增强生成(RAG)、多语言以及多模态文档处理方面进行了深度优化,它将 Cohere 此前推出的四款模型(Command A、Command A Reasoning、Command A Vision 和 Command A Translate)的核心能力完美融于一体。

在架构设计上,Command A+ 采用仅解码器(Decoder-only)的稀疏混合专家(Sparse MoE)Transformer 结构,总参数量达 2180 亿(218B),而激活参数仅为 250 亿(25B)。模型共包含 128 个专家网络,每个 Token 会激活其中的 8 个专家,并有一个共享专家应用于所有 Token。这种 MoE 架构在推理时仅激活 25B 的计算量,极大提升了运行效率。此外,其注意力层将带有旋转位置编码(RoPE)的滑动窗口注意力层与无位置编码的全局注意力层以 3:1 的比例进行交错。其稀疏 MoE 层在训练时完全不丢弃 Token(dropless),并使用 Token 选择路由,在每个 Token 的 Top-K 专家 Logits 上执行归一化 Sigmoid 运算。该模型支持文本、图像和工具调用作为输入,输出则支持文本、推理和工具调用,具备 128K 的输入上下文长度和 64K 的最大生成长度。

硬件与量化方面,Cohere 提供了三种量化版本以降低 GPU 门槛:BF16(16位)需要 4 张 B200 或 8 张 H100;FP8(8位)需要 2 张 B200 或 4 张 H100;W4A4(4位)则仅需 1 张 B200 或 2 张 H100。测试表明,这三种量化版本在基准测试中的性能差异几乎可以忽略不计,Cohere 推荐大多数企业部署 W4A4 版本。

在 W4A4 量化方法上,Cohere 采用了 NVFP4 W4A4 量化技术(4位权重和激活,两级缩放),且该量化仅应用于 MoE 的专家网络。包含 Q/K/V/O 投影、KV 缓存以及注意力计算在内的注意力路径仍保持全精度。为了消除量化带来的精度损失,Cohere 在后期训练阶段采用了量化感知蒸馏(QAD)技术:通过在前向传播中使用伪量化算子,在反向传播中使用直通估计器,训练量化后的学生模型去拟合全精度教师模型的输出分布。

在实际性能表现上,相比此前的 Command A 系列模型,Command A+ 实现了飞跃。在 τ²-Bench Telecom 基准测试中,其得分从 Command A Reasoning 的 37% 飙升至 85%;在 Terminal-Bench Hard 的 Agent 编程测试中,其性能从 3% 提升至 25%。在 Cohere 内部的 North 平台评估中,其 Agent 问答(Agentic QA,衡量模型使用 MCP 协议连接云端文件系统回答企业问题的能力)准确率较 Command A Reasoning 提高了 20%,电子表格分析能力也显著增强。

【AgentUpdate 深度解析】Command A+ 的发布标志着企业级 AI Agent 基础设施的一大跨越。通过在 MoE 架构上极限应用 W4A4 量化,Cohere 成功在两张 H100(甚至单张 B200)的极低算力成本下,释放了 218B 规模模型的推理与多模态 Agent 能力。这直接切中了当前企业级 Agent 部署的痛点:高昂的推理成本与多工具调用(MCP 协议支持)的实时性要求。相较于完全闭源的 GPT-4o 或极消耗算力的 LLaMA 3 405B,Command A+ 在保持开源灵活性的同时,通过“重算力放在核心逻辑,轻量化放在专家网络”的极简化设计,为行业提供了一条高性价比的 Agent 落地范式。未来,这种将多模态、长文本和高精度工具调用融为一体的轻量化大模型,将成为端侧或私有云中控 Agent 系统的黄金标准。

↗ 阅读原文