GPT-5.5基准领先，但幻觉问题突出且API成本增20%

OpenAI最新模型GPT-5.5的API成本相较于GPT-5.4上涨了大约20%。尽管其纸面上的API价格翻倍至每百万输入代币5美元、输出代币30美元，但根据基准测试服务商Artificial Analysis的数据，GPT-5.5的代币使用量减少了约40%，使得实际净价格涨幅降至约20%。这一涨幅仍小于Anthropic的Opus 4.7，后者虽然标价与前代相同，但代币消耗却增加了35%至40%。GPT-5.5的发布也让OpenAI再次登上AI性能榜首，在Artificial Analysis智能指数中以60分领先，比并列57分的Claude Opus 4.7和Gemini 3.1 Pro Preview高出3分。

从性价比来看，GPT-5.5在中等算力下就能达到Claude Opus 4.7在最大算力下的分数，而成本仅为其四分之一，大约1200美元，而非4800美元。谷歌的Gemini 3.1 Pro Preview则以更低的约900美元实现了可比的性能。但基准测试并不能完全反映实际情况：我们的测试和开发者反馈表明，Gemini主要在谷歌产品生态中的日常通用性和视觉任务方面表现出色，而OpenAI和Anthropic的最新模型在编码和代理（agentic）任务上往往更胜一筹。

然而，GPT-5.5的弱点在于其幻觉问题。在Artificial Analysis的AA Omniscience基准测试中，该测试旨在奖励事实回忆并惩罚错误答案，GPT-5.5的准确率高达57%，位居所有模型之首。但其幻觉率却高达86%，远高于Claude Opus 4.7的36%和Gemini 3.1 Pro Preview的50%。尽管相比GPT-5.4，GPT-5.5在此基准测试上取得了14分的提升，但这主要归功于更好的事实回忆能力，而在减少幻觉方面的进展却非常有限。对于一个AI模型而言，知道何时应该规避或承认不确定性是其关键特性。从这个角度看，GPT-5.5在幻觉控制方面似乎是倒退而非进步。