News

GPT-5.5基准领先,但幻觉问题突出且API成本增20%

GPT-5.5基准领先,但幻觉问题突出且API成本增20%

OpenAI最新模型GPT-5.5的API成本相较于GPT-5.4上涨了大约20%。尽管其纸面上的API价格翻倍至每百万输入代币5美元、输出代币30美元,但根据基准测试服务商Artificial Analysis的数据,GPT-5.5的代币使用量减少了约40%,使得实际净价格涨幅降至约20%。这一涨幅仍小于Anthropic的Opus 4.7,后者虽然标价与前代相同,但代币消耗却增加了35%至40%。GPT-5.5的发布也让OpenAI再次登上AI性能榜首,在Artificial Analysis智能指数中以60分领先,比并列57分的Claude Opus 4.7和Gemini 3.1 Pro Preview高出3分。

从性价比来看,GPT-5.5在中等算力下就能达到Claude Opus 4.7在最大算力下的分数,而成本仅为其四分之一,大约1200美元,而非4800美元。谷歌的Gemini 3.1 Pro Preview则以更低的约900美元实现了可比的性能。但基准测试并不能完全反映实际情况:我们的测试和开发者反馈表明,Gemini主要在谷歌产品生态中的日常通用性和视觉任务方面表现出色,而OpenAI和Anthropic的最新模型在编码和代理(agentic)任务上往往更胜一筹。

然而,GPT-5.5的弱点在于其幻觉问题。在Artificial Analysis的AA Omniscience基准测试中,该测试旨在奖励事实回忆并惩罚错误答案,GPT-5.5的准确率高达57%,位居所有模型之首。但其幻觉率却高达86%,远高于Claude Opus 4.7的36%和Gemini 3.1 Pro Preview的50%。尽管相比GPT-5.4,GPT-5.5在此基准测试上取得了14分的提升,但这主要归功于更好的事实回忆能力,而在减少幻觉方面的进展却非常有限。对于一个AI模型而言,知道何时应该规避或承认不确定性是其关键特性。从这个角度看,GPT-5.5在幻觉控制方面似乎是倒退而非进步。

↗ 阅读原文