Anthropic发布Claude Opus 4.7：编程与智能体性能领跑基准

Anthropic 近日发布了其目前最强大的通用模型 Claude Opus 4.7。该模型在软件工程和智能体推理方面取得了行业领先的基准分数，进一步拉大了 Claude 与 OpenAI 的 GPT-5.4 和 Google 的 Gemini 3.1 Pro 在开发者和企业用户最重视任务上的差距。

Claude Opus 4.7 的定价为每百万输入 Token 5 美元、每百万输出 Token 25 美元，现已通过所有 Claude 套餐以及 Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 等主流云平台提供。

Opus 4.7 的亮点表现主要集中在软件工程领域。在 SWE-bench Pro 基准测试中，该测试评估模型解决开源代码库中真实世界软件问题的能力，Opus 4.7 的得分高达 64.3%。这相比 Opus 4.6 的 53.4% 有显著提升，并大幅领先 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%。而在经过筛选的 SWE-bench Verified 子集上，Opus 4.7 的得分更是达到了 87.6%，远超其前身 Opus 4.6 的 80.8% 和 Gemini 3.1 Pro 的 80.6%。

在流行的 AI 代码编辑器中衡量的自主编码性能（CursorBench）方面，Opus 4.7 也展现了显著飞跃：得分从 Opus 4.6 的 58% 跃升至 70%。对于已经在 Cursor 和 Claude Code 等工具中成为默认选择的模型而言，这项与开发者实际使用方式直接相关的基准改进意义重大。

在研究生水平的推理能力方面，以 GPQA Diamond 衡量，前沿模型之间已趋于收敛。Opus 4.7 得分为 94.2%，GPT-5.4 Pro 为 94.4%，Gemini 3.1 Pro 为 94.3%。这些细微差异表明，竞争焦点正从原始推理分数转向复杂多步骤任务上的实际应用性能。

Opus 4.7 最具影响力的改进可能并非单一基准所能完全捕捉。Anthropic 表示，该模型在复杂多步骤工作流中的表现比 Opus 4.6 提高了 14%，同时使用了更少的 Token，并将工具错误减少了三分之二。它是首个通过 Anthropic 所谓的“隐式需求测试”的 Claude 模型，即模型必须推断所需的工具或操作，而非被明确告知，这标志着向更自主的 AI 智能体迈出了关键一步。此外，新模型还支持 3 倍更高的图像分辨率，并增强了多智能体协调能力，使其能够管理长达数小时的工作流。

Anthropic发布Claude Opus 4.7：编程与智能体性能领跑基准

推荐阅读

Claude要用户验证身份？Anthropic启用Persona引争议

Next.js渲染策略如何影响SEO索引：工程师指南

谷歌AI模式升级：AI帮你查库存、盯酒店价，旅行规划更智能

相关工具与资源推荐

相关技能市场

Awesome Claude Skills

Anthropic Agent Skills

Agent Skills Hunter