OpenAI推出GPT-5.5：全面重训基座模型，强化AI代理与多步任务处理

OpenAI近日发布了代号为“Spud”的GPT-5.5模型，这是自GPT-4.5以来首次进行全面重训的基座模型。该模型的核心设计目标是以最少的人工干预完成复杂的、多步骤任务。它在代理编码、计算机使用和知识工作等领域树立了新的性能基准，同时能保持与GPT-5.4相同的单token延迟。值得注意的是，API访问仍在等待进一步的安全审查。

数月以来，业内公开的秘密是Anthropic的Claude在企业市场正势如破竹。内部消息显示，OpenAI自2025年12月以来一直处于“红色警报”状态，眼睁睁看着Anthropic的年度经常性收入（ARR）从90亿美元飙升至300亿美元，而自己的B2B市场地位却受到侵蚀。

周四，OpenAI终于做出了回应。GPT-5.5模型正面向ChatGPT和Codex的Plus、Pro、Business及Enterprise用户推出。该模型旨在通过有限的人工指导完成工作，能够跨电子邮件、电子表格、日历及其他应用程序进行操作。

GPT-5.5的核心理念是“可理解性”（legibility）。OpenAI表示，以往的模型需要精心构造的提示和多步监督，而5.5则能够接受“混乱的、多部分的任务”，并独立进行规划、使用工具、检查工作、处理模糊性，并持续推进直至任务完成。

性能提升主要集中在四个领域：代理编码（agentic coding）、计算机使用、知识工作和早期科学研究。OpenAI将这些领域描述为“进展依赖于跨上下文推理和随着时间推移采取行动”的场景。

基准测试数据表现强劲。在Terminal-Bench 2.0上，GPT-5.5取得了82.7%的成绩，该测试评估需要规划、迭代和工具协调的复杂命令行工作流。在SWE-Bench Pro上，该模型得分58.6%，该测试评估解决四种编程语言中真实GitHub问题的能力，GPT-5.5在单次尝试中解决了比以往模型更多的任务。在GDPval（测试跨44种知识工作的AI代理）上，它获得了84.9%的成绩。在OSWorld-Verified（测量模型是否能自主操作真实计算机环境）上，达到了78.7%。在Tau2-bench Telecom测试中，未经提示调整即达到了98.0%。OpenAI表示，在所有这些测试中，GPT-5.5在提升GPT-5.4分数的同时，使用了更少的token。

效率提升具有重要的商业意义。通常，更大、更强大的模型服务速度较慢，这给企业客户带来了成本与质量的权衡。OpenAI声称GPT-5.5在实际服务中能保持与GPT-5.4相同的单token延迟，这意味着它在提供更高智能水平的同时，响应时间并未增加。此外，在Codex中完成等效任务时，它显著减少了token使用量，从而直接降低了企业部署的单任务成本。尽管GPT-5.5的每token定价高于GPT-5.4，但OpenAI表示，综合效果是实现更优的结果和更低的净成本。