Cohere发布Command A+：两张H100即可运行的MoE模型

Cohere 近日正式发布了全新开源大模型 Command A+，旨在为企业级 Agent（智能体）工作流提供强劲支持。该模型采用 Apache 2.0 开源协议，是一种混合专家（MoE）模型，专为高性能 Agent 任务打造，且计算开销极低。Command A+ 在推理、Agent 工作流、检索增强生成（RAG）、多语言以及多模态文档处理方面进行了深度优化，它将 Cohere 此前推出的四款模型（Command A、Command A Reasoning、Command A Vision 和 Command A Translate）的核心能力完美融于一体。

在架构设计上，Command A+ 采用仅解码器（Decoder-only）的稀疏混合专家（Sparse MoE）Transformer 结构，总参数量达 2180 亿（218B），而激活参数仅为 250 亿（25B）。模型共包含 128 个专家网络，每个 Token 会激活其中的 8 个专家，并有一个共享专家应用于所有 Token。这种 MoE 架构在推理时仅激活 25B 的计算量，极大提升了运行效率。此外，其注意力层将带有旋转位置编码（RoPE）的滑动窗口注意力层与无位置编码的全局注意力层以 3:1 的比例进行交错。其稀疏 MoE 层在训练时完全不丢弃 Token（dropless），并使用 Token 选择路由，在每个 Token 的 Top-K 专家 Logits 上执行归一化 Sigmoid 运算。该模型支持文本、图像和工具调用作为输入，输出则支持文本、推理和工具调用，具备 128K 的输入上下文长度和 64K 的最大生成长度。

硬件与量化方面，Cohere 提供了三种量化版本以降低 GPU 门槛：BF16（16位）需要 4 张 B200 或 8 张 H100；FP8（8位）需要 2 张 B200 或 4 张 H100；W4A4（4位）则仅需 1 张 B200 或 2 张 H100。测试表明，这三种量化版本在基准测试中的性能差异几乎可以忽略不计，Cohere 推荐大多数企业部署 W4A4 版本。

在 W4A4 量化方法上，Cohere 采用了 NVFP4 W4A4 量化技术（4位权重和激活，两级缩放），且该量化仅应用于 MoE 的专家网络。包含 Q/K/V/O 投影、KV 缓存以及注意力计算在内的注意力路径仍保持全精度。为了消除量化带来的精度损失，Cohere 在后期训练阶段采用了量化感知蒸馏（QAD）技术：通过在前向传播中使用伪量化算子，在反向传播中使用直通估计器，训练量化后的学生模型去拟合全精度教师模型的输出分布。

在实际性能表现上，相比此前的 Command A 系列模型，Command A+ 实现了飞跃。在 τ²-Bench Telecom 基准测试中，其得分从 Command A Reasoning 的 37% 飙升至 85%；在 Terminal-Bench Hard 的 Agent 编程测试中，其性能从 3% 提升至 25%。在 Cohere 内部的 North 平台评估中，其 Agent 问答（Agentic QA，衡量模型使用 MCP 协议连接云端文件系统回答企业问题的能力）准确率较 Command A Reasoning 提高了 20%，电子表格分析能力也显著增强。

【AgentUpdate 深度解析】Command A+ 的发布标志着企业级 AI Agent 基础设施的一大跨越。通过在 MoE 架构上极限应用 W4A4 量化，Cohere 成功在两张 H100（甚至单张 B200）的极低算力成本下，释放了 218B 规模模型的推理与多模态 Agent 能力。这直接切中了当前企业级 Agent 部署的痛点：高昂的推理成本与多工具调用（MCP 协议支持）的实时性要求。相较于完全闭源的 GPT-4o 或极消耗算力的 LLaMA 3 405B，Command A+ 在保持开源灵活性的同时，通过“重算力放在核心逻辑，轻量化放在专家网络”的极简化设计，为行业提供了一条高性价比的 Agent 落地范式。未来，这种将多模态、长文本和高精度工具调用融为一体的轻量化大模型，将成为端侧或私有云中控 Agent 系统的黄金标准。

Cohere发布Command A+：两张H100即可运行的MoE模型

推荐阅读

AI时代的创意规模化：如何用生成式工具重塑企业内容工作流

Anthropic代码大会揭示未来：程序员连代码都不看了？

谷歌搜索迎来25年最大AI变革，替代品Kagi正悄然崛起

相关工具与资源推荐

相关技能市场

Anthropic Agent Skills

TokRepo

Skill Atlas