GPT-5.5网络攻击测试追平Claude Mythos，AI安全挑战升级

英国AI安全研究所（AISI）报告称，OpenAI的GPT-5.5在网络攻击评估中的表现与Anthropic的Claude Mythos Preview不相上下。AISI认为，这表明AI驱动的攻击能力正呈现出更广泛的趋势。

AISI对GPT-5.5进行了一系列网络攻击测试。结果显示，GPT-5.5是继Claude Mythos Preview之后，第二个能够完全完成企业多阶段攻击模拟的模型。在独立的专家级安全任务中，GPT-5.5甚至略微超越了Anthropic的模型。AISI指出，Claude Mythos早在4月份展现出的能力并非偶然，而是AI在自主性、推理和编码方面普遍进步的必然结果。

在独立的专家级任务测试中，AISI通过一套包含95项夺旗任务的测试套件，分为四个难度等级进行评估。与网络安全公司Crystal Peak Security和Irregular合作构建的高级任务，涵盖了逆向工程、针对各种内存漏洞的漏洞利用开发、密码攻击以及解包混淆恶意软件等。在最高“专家”难度级别，GPT-5.5的平均成功率达到71.4%，而Claude Mythos Preview为68.6%。尽管差距在统计误差范围内，但GPT-5.5可能是迄今为止测试过的最强模型。作为对比，GPT-5.4的得分为52.4%，Claude Opus 4.7为48.6%。

除了独立任务，GPT-5.5也成功完成了完整的网络攻击模拟。AISI利用网络靶场模拟了具有多台主机、服务和漏洞的网络环境。名为“The Last Ones”（TLO）的模拟包含32个步骤，跨越四个子网和大约20台主机。AI代理在没有初始凭据的情况下，需要发现漏洞、窃取凭据、在网络中横向移动，并最终访问受保护的数据库。AISI估计，人类专家完成这项任务大约需要20小时。

GPT-5.5在10次尝试中有2次完全解决了TLO模拟，而Claude Mythos Preview在10次中有3次达到相同水平。AISI表示，模型性能仍随推理计算能力的增加而提升，即使是最佳模型也尚未达到极限。模型投入“思考”的token越多，其成功完成攻击的可能性就越大。

然而，这些测试环境并未设置主动防御者、安全监控，也没有对在现实世界中会触发警报的行为产生任何后果。GPT-5.5或Mythos能否在防御严密的系统面前持续有效，仍是一个悬而未决的问题。