Anthropic新模型Mythos Preview在SWE-bench代码基准测试中表现卓越，大幅超越Opus 4.6

人工智能研究公司Anthropic近期宣布，其最新模型Mythos Preview在业界广受关注的SWE-bench软件工程基准测试中取得了突破性进展，其表现远超此前的Opus 4.6模型，预示着AI在自动化软件开发领域的巨大潜力。

具体来看，在SWE-bench的“Verified”版本测试中，Mythos Preview取得了令人瞩目的93.9%的通过率。相比之下，作为Anthropic旗下或同级别的强劲模型，Opus 4.6在该项测试中的得分为80.8%。这一成绩表明，Mythos Preview在理解和解决经验证的软件问题方面能力显著提升。

而在难度更高的SWE-bench“Pro”版本测试中，Mythos Preview同样表现出色，以77.8%的成绩大幅领先。相较之下，Opus 4.6在同一测试中仅达到53.4%。这种性能上的巨大飞跃，尤其是在处理更复杂、更具挑战性的实际软件工程任务时，凸显了AI模型在代码生成、调试和问题解决方面的快速进步。

SWE-bench是一个旨在评估AI模型处理真实世界软件工程任务能力的基准测试，它要求模型能够从GitHub上的实际问题报告中识别、理解并修复bug，或实现新功能。Mythos Preview的优异表现，不仅巩固了Anthropic在AI领域的技术领导地位，也为未来的AI代码代理和自主开发工具的发展奠定了坚实基础，加速了“AI辅助编程”乃至“AI自主编程”的实现进程。

Anthropic新模型Mythos Preview在SWE-bench代码基准测试中表现卓越，大幅超越Opus 4.6

推荐阅读

科技前沿速览：AI语音、空间计算与云数据安全新进展

Anthropic Mythos模型发现OS及浏览器大量高危漏洞

OpenAI提议四天工作制、机器人税应对AI社会冲击

相关工具与资源推荐

相关技能市场

Awesome Claude Skills

Agent Skills Catalog

Claude Skills Collection