Anthropic 近日发布了其目前最强大的通用模型 Claude Opus 4.7。该模型在软件工程和智能体推理方面取得了行业领先的基准分数,进一步拉大了 Claude 与 OpenAI 的 GPT-5.4 和 Google 的 Gemini 3.1 Pro 在开发者和企业用户最重视任务上的差距。
Claude Opus 4.7 的定价为每百万输入 Token 5 美元、每百万输出 Token 25 美元,现已通过所有 Claude 套餐以及 Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 等主流云平台提供。
Opus 4.7 的亮点表现主要集中在软件工程领域。在 SWE-bench Pro 基准测试中,该测试评估模型解决开源代码库中真实世界软件问题的能力,Opus 4.7 的得分高达 64.3%。这相比 Opus 4.6 的 53.4% 有显著提升,并大幅领先 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%。而在经过筛选的 SWE-bench Verified 子集上,Opus 4.7 的得分更是达到了 87.6%,远超其前身 Opus 4.6 的 80.8% 和 Gemini 3.1 Pro 的 80.6%。
在流行的 AI 代码编辑器中衡量的自主编码性能(CursorBench)方面,Opus 4.7 也展现了显著飞跃:得分从 Opus 4.6 的 58% 跃升至 70%。对于已经在 Cursor 和 Claude Code 等工具中成为默认选择的模型而言,这项与开发者实际使用方式直接相关的基准改进意义重大。
在研究生水平的推理能力方面,以 GPQA Diamond 衡量,前沿模型之间已趋于收敛。Opus 4.7 得分为 94.2%,GPT-5.4 Pro 为 94.4%,Gemini 3.1 Pro 为 94.3%。这些细微差异表明,竞争焦点正从原始推理分数转向复杂多步骤任务上的实际应用性能。
Opus 4.7 最具影响力的改进可能并非单一基准所能完全捕捉。Anthropic 表示,该模型在复杂多步骤工作流中的表现比 Opus 4.6 提高了 14%,同时使用了更少的 Token,并将工具错误减少了三分之二。它是首个通过 Anthropic 所谓的“隐式需求测试”的 Claude 模型,即模型必须推断所需的工具或操作,而非被明确告知,这标志着向更自主的 AI 智能体迈出了关键一步。此外,新模型还支持 3 倍更高的图像分辨率,并增强了多智能体协调能力,使其能够管理长达数小时的工作流。