OpenAI近日发布了代号为“Spud”的GPT-5.5模型,这是自GPT-4.5以来首次进行全面重训的基座模型。该模型的核心设计目标是以最少的人工干预完成复杂的、多步骤任务。它在代理编码、计算机使用和知识工作等领域树立了新的性能基准,同时能保持与GPT-5.4相同的单token延迟。值得注意的是,API访问仍在等待进一步的安全审查。
数月以来,业内公开的秘密是Anthropic的Claude在企业市场正势如破竹。内部消息显示,OpenAI自2025年12月以来一直处于“红色警报”状态,眼睁睁看着Anthropic的年度经常性收入(ARR)从90亿美元飙升至300亿美元,而自己的B2B市场地位却受到侵蚀。
周四,OpenAI终于做出了回应。GPT-5.5模型正面向ChatGPT和Codex的Plus、Pro、Business及Enterprise用户推出。该模型旨在通过有限的人工指导完成工作,能够跨电子邮件、电子表格、日历及其他应用程序进行操作。
GPT-5.5的核心理念是“可理解性”(legibility)。OpenAI表示,以往的模型需要精心构造的提示和多步监督,而5.5则能够接受“混乱的、多部分的任务”,并独立进行规划、使用工具、检查工作、处理模糊性,并持续推进直至任务完成。
性能提升主要集中在四个领域:代理编码(agentic coding)、计算机使用、知识工作和早期科学研究。OpenAI将这些领域描述为“进展依赖于跨上下文推理和随着时间推移采取行动”的场景。
基准测试数据表现强劲。在Terminal-Bench 2.0上,GPT-5.5取得了82.7%的成绩,该测试评估需要规划、迭代和工具协调的复杂命令行工作流。在SWE-Bench Pro上,该模型得分58.6%,该测试评估解决四种编程语言中真实GitHub问题的能力,GPT-5.5在单次尝试中解决了比以往模型更多的任务。在GDPval(测试跨44种知识工作的AI代理)上,它获得了84.9%的成绩。在OSWorld-Verified(测量模型是否能自主操作真实计算机环境)上,达到了78.7%。在Tau2-bench Telecom测试中,未经提示调整即达到了98.0%。OpenAI表示,在所有这些测试中,GPT-5.5在提升GPT-5.4分数的同时,使用了更少的token。
效率提升具有重要的商业意义。通常,更大、更强大的模型服务速度较慢,这给企业客户带来了成本与质量的权衡。OpenAI声称GPT-5.5在实际服务中能保持与GPT-5.4相同的单token延迟,这意味着它在提供更高智能水平的同时,响应时间并未增加。此外,在Codex中完成等效任务时,它显著减少了token使用量,从而直接降低了企业部署的单任务成本。尽管GPT-5.5的每token定价高于GPT-5.4,但OpenAI表示,综合效果是实现更优的结果和更低的净成本。