Cohere 正式发布了 Command A+,这是一款针对企业级 Agent 工作流的开源模型。该模型采用 Apache 2.0 协议,是一种混合专家(MoE)模型,旨在以最小的计算开销实现高性能的任务处理。Command A+ 在推理、Agent 工作流、RAG(检索增强生成)、多语言及多模态文档处理方面进行了深度优化。它成功统一了此前四个独立模型(Command A、Command A Reasoning、Command A Vision 和 Command A Translate)的能力,构建成一个单一的可扩展模型。
在架构方面,Command A+ 采用了仅解码器(Decoder-only)的稀疏混合专家 Transformer 架构。其总参数量高达 218B,但在推理时仅有 25B 活跃参数。该模型拥有 128 个专家,每个 Token 激活其中 8 个,并辅以一个应用于所有 Token 的共享专家。这种 MoE 设计确保了模型在保持超大规模参数容量的同时,推理时的计算量仅相当于一个 25B 规模的模型。在注意力机制上,它将滑动窗口注意力层(结合旋转位置嵌入 RoPE)与全局注意力层以 3:1 的比例交替排列。其稀疏 MoE 层采用完全“无丢弃”(dropless)模式训练,并使用 Token 选择路由器,通过标准化的 Sigmoid 函数处理每个 Token 的 Top-K 专家得分。
Command A+ 支持文本、图像和工具调用作为输入,并能输出文本、推理过程和工具指令。模型支持高达 128K 的输入上下文长度和 64K 的最大生成长度。为了降低企业部署门槛,Cohere 提供了三种量化版本:BF16(16位)需要 8 块 H100;FP8(8位)需要 4 块 H100;而 W4A4(4位)仅需 2 块 H100 即可运行。Cohere 表示,即便是在 4 位量化下,基准测试的质量损失也几乎可以忽略不计,因此推荐大多数场景使用 W4A4 部署。
在量化技术上,Cohere 对 MoE 专家部分应用了 NVFP4 W4A4 量化(4位权重和激活),而将注意力路径(包括 Q/K/V/O 投影和 KV 缓存)保留在全精度。为了弥补量化带来的精度损失,Cohere 在后期训练中采用了量化感知蒸馏(QAD)技术:让量化后的学生模型通过前向传播中的伪量化算子和反向传播中的直通估计器,去模拟全精度教师模型的输出分布。
性能表现上,Command A+ 较前代产品有显著飞跃。在 τ²-Bench Telecom 测试中,得分从 Command A Reasoning 的 37% 飙升至 85%;在 Terminal-Bench Hard Agent 编码测试中,性能从 3% 提升至 25%。根据 Cohere 内部 North 平台的 LLM-as-a-judge 评估,其 Agent 问答准确率提升了 20%,该测试重点衡量模型通过 MCP(模型上下文协议)连接云文件系统解决企业问题的能力。