人工智能研究公司Anthropic近期宣布,其最新模型Mythos Preview在业界广受关注的SWE-bench软件工程基准测试中取得了突破性进展,其表现远超此前的Opus 4.6模型,预示着AI在自动化软件开发领域的巨大潜力。
具体来看,在SWE-bench的“Verified”版本测试中,Mythos Preview取得了令人瞩目的93.9%的通过率。相比之下,作为Anthropic旗下或同级别的强劲模型,Opus 4.6在该项测试中的得分为80.8%。这一成绩表明,Mythos Preview在理解和解决经验证的软件问题方面能力显著提升。
而在难度更高的SWE-bench“Pro”版本测试中,Mythos Preview同样表现出色,以77.8%的成绩大幅领先。相较之下,Opus 4.6在同一测试中仅达到53.4%。这种性能上的巨大飞跃,尤其是在处理更复杂、更具挑战性的实际软件工程任务时,凸显了AI模型在代码生成、调试和问题解决方面的快速进步。
SWE-bench是一个旨在评估AI模型处理真实世界软件工程任务能力的基准测试,它要求模型能够从GitHub上的实际问题报告中识别、理解并修复bug,或实现新功能。Mythos Preview的优异表现,不仅巩固了Anthropic在AI领域的技术领导地位,也为未来的AI代码代理和自主开发工具的发展奠定了坚实基础,加速了“AI辅助编程”乃至“AI自主编程”的实现进程。