News

Claude Opus 4.7发布:不止聪明,更“靠谱”的AI工程师来了

Claude Opus 4.7发布:不止聪明,更“靠谱”的AI工程师来了

Anthropic 近期动作频频,AI 圈对其关注度持续高涨。日前,备受期待的 Claude Opus 4.7 正式发布。

Anthropic 坦诚指出 Opus 4.7 并非其最强模型(其顶尖的 Claude Mythos Preview 仍未公开发布)。然而,4.7 的发布仍引发广泛关注,因为它着力解决了一个比单纯“聪明”更重要的痛点:“靠谱”。这种靠谱体现在它能辨识并纠正用户提出的不合理方案,甚至主动填补逻辑漏洞。

在严苛的基准测试中,Opus 4.7 展现出显著优势。它在行业硬核代码基准测试 SWE-bench Pro 上,得分从前代的 53.4% 跃升至 64.3%,领先 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)。在视觉推理的 CharXiv 基准上,其分数从 69.1% 提高到 82.1%,得益于新增的 2576 像素长边识别能力,清晰度提升三倍以上,从而全面提升了界面生成、文档排版等细节精度。在工具调用规模化评测 MCP-Atlas 中,4.7 达到 77.3%,超越 GPT-5.4(68.1%)和 Gemini(73.9%)。法律 AI 平台 Harvey 的 BigLaw 基准测试显示,4.7 获得 90.9% 的高分,成功区分了“转让条款”和“控制权变更条款”等复杂法律概念。

然而,Opus 4.7 在 Agentic search 评测 BrowseComp 中有所退步,从前代的 83.7% 降至 79.3%,落后于 GPT-5.4(89.3%)和 Gemini(85.9%)。这主要是因为 4.7 更倾向于在信息缺失时报错而非“编造”答案,这在以“是否给出答案”为标准的测试中自然会“吃亏”。

这种“靠谱”在实际工作中意义深远。不同于以往代码大模型仅限于“写函数、找Bug”,Claude 4.7 在早期测试中展现出独特的“同事”气质。Replit 负责人评价:“它会在技术讨论中反驳我,帮助我做出更好的决策,感觉更像一位真正的同事。”

Opus 4.7 彻底摆脱了“唯命是从”和“胡编乱造”。在 Hex 平台的测试中,它会直接报错缺失数据,而非像前代那样提供看似合理实则错误的替代值。Hex 团队甚至认为,“低消耗状态下的 4.7 相当于中等消耗状态下的 4.6。”这种“拒绝顺从”的特质对高级软件工程至关重要。当然,这也意味着用户需要更精准地表达需求,模糊指令可能导致意外结果。

除了“有主见”,4.7 的另一个核心改进是任务韧性。以往大模型在多步任务中遇到工具调用失败常导致停机。Notion 团队测试显示,Opus 4.7 的工具错误率降至三分之一,且能在工具链崩溃时自主绕过障碍并继续完成任务。这种韧性极大提升了 AI 在复杂工作流中的实用性。

Anthropic 举例称,4.7 曾在无人干预下,从零构建了一个完整的 Rust 文本转语音引擎,包括编写神经网络模型、SIMD 内核和浏览器演示,并自行完成输出验证与测试。前端巨头 Vercel 还发现,4.7 在编写系统级代码前会进行数学证明,这标志着其已从单纯的代码生成迈向严谨的工程设计。

为评估其细节处理能力,测试人员设定了三个前端交互场景。在制作俯视视角黑胶唱片机界面时,4.7 巧妙运用复杂 CSS 样式,而非简单渐变,逼真呈现了金属光泽和呼吸光晕。在仅用纯 CSS 实现老式电风扇场景中,4.7 严格遵守规则,通过 CSS 精确构建了风扇的立体结构、流畅的三档过渡及底座透视阴影,呈现出实物感。此外,它还能制作带有旧式噪点效果和磁带转动细节的复古磁带随身听界面。

Opus 4.7 已在所有 Claude 产品及 API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 平台上线。基础定价保持不变(每百万输入 5 美元,输出 25 美元)。但需注意,新分词器会将同样文本拆分为原先 1.0 至 1.35 倍的 Token,加上其在复杂任务中倾向于“深度思考”,实际使用成本预计将有所上升。Anthropic 还新增了 xhigh(超高)难度级别,在此级别下,4.7 将投入更多 Token 和时间处理复杂问题,Claude Code 已将所有套餐的默认努力级别设为 xhigh。

为适应新的工作流,Claude Code 推出了两项关键功能:

  • /ultrareview(深度审查):为 Pro 和 Max 用户提供三次免费试用,该功能能像资深代码审查员一样,发现深层架构设计缺陷和 Bug。
  • Auto Mode(自动模式):面向 Max 用户,这是一种新的权限模式,允许 Claude 在授权范围内自主决策,平衡了任务效率与安全性。

API 端还推出了“任务预算”(Task Budgets)功能公测版,帮助开发者规划 Claude 在长任务中的 Token 支出优先级,防止意外高消耗。

值得注意的是,Opus 4.7 并非 Anthropic 的最强王牌。其更强大的模型 Claude Mythos Preview,代号“Project Glasswing”,近期已小范围开放给企业用于网络安全研究,但尚未公开发布。

↗ 阅读原文