人工智能安全领域迎来重大进展。Mythos AI 模型(预览版)近期成功通过了人工智能安全研究所(AISI)设立的所有网络攻防基准测试(Cyber Ranges),成为全球首个达成此成就的 AI 模型。这一里程碑不仅展示了下一代模型在安全评估中的快速进步,也为衡量 AI 系统的极端能力设定了新标准。
据悉,AISI 的网络攻防基准测试旨在精确衡量和理解 AI 系统所具备的高级网络攻击能力。这些测试模拟了复杂的真实世界黑客场景,对模型的逻辑推理、代码执行及漏洞挖掘能力提出了极高要求。在同期的评估过程中,备受期待的 GPT-5.5 模型虽然表现强劲,但最终也仅能完成其中一项挑战,而 Mythos 则凭借其卓越的性能架构,一举攻克了全部两项核心测试。
此次突破凸显了模型评估(Evaluation)在确保 AI 安全应用中的关键作用。随着 Mythos 模型不断推高技术基准,安全研究人员将能更好地预测 AI 在网络安全领域的潜在风险,并为更强大的模型开发相应的防御和监管机制。