News

Gemini 3.1 Pro与GPT-5.4实测对比:成本优势显著,性能互有胜负

Gemini 3.1 Pro与GPT-5.4实测对比:成本优势显著,性能互有胜负

最近,有开发者进行了一项针对Google Gemini 3.1 Pro和OpenAI GPT-5.4的实际性能对比测试,旨在超越传统基准测试,深入探究两款模型在真实工作负载中的表现。测试涵盖了质量、速度和实际成本等多个维度。

测试设置

该测试共计执行了500项任务,具体分类如下:

  • 编程任务:150项
  • 推理/数学任务:100项
  • 文档分析任务:150项
  • 创意写作任务:100项

所有任务均使用相同的提示词发送给两款模型。质量评估由人工(主测试者及两位同事)进行1-5分的打分并取平均值。每项任务的成本,包括缓存命中成本,都进行了详细追踪。

测试结果概览

从总体上看,GPT-5.4在质量评分上以0.1分的微弱优势领先(4.2 vs 4.1),而Gemini 3.1 Pro则在成本上展现出显著优势,整体节省了31%。

类别GPT-5.4 质量Gemini 3.1 Pro 质量赢家GPT-5.4 成本Gemini 成本成本节省
编程 (150)4.34.1GPT$18.75$13.2030%
推理 (100)4.14.2Gemini$14.50$10.8026%
文档分析 (150)4.04.2Gemini$22.50$14.4036%
创意写作 (100)4.44.0GPT$12.00$8.4030%
总计4.24.1平局$67.75$46.8031%

具体类别分析

编程任务:GPT-5.4略胜一筹

在编程任务中,GPT-5.4以4.3分对Gemini的4.1分胜出。主要差异体现在:

  • 多文件重构:GPT在理解跨文件关系方面表现更佳。
  • 边缘案例处理:GPT在生成的代码中能捕获更多边缘案例。
  • 简单函数:两者质量基本相同,差距主要在复杂任务上显现。

对于简单的编程任务(如CRUD操作、API集成、工具函数),两者质量差异不明显,选择Gemini可节省30%成本。

推理任务:Gemini胜出

Gemini在数学和逻辑任务中以4.2分领先GPT的4.1分。令人惊喜的是,Gemini的“思维模式”在不额外计费的情况下,生成了更彻底的链式思考推理。OpenAI的o3模型虽然也提供推理能力,但其推理令牌通常作为隐藏的输出令牌计费($8/M),这可能使账单成本增加3-10倍,而Gemini将推理令牌包含在标准输出价格($12/M)中。

文档分析:Gemini优势明显

Gemini 3.1 Pro的2M上下文窗口在此类别中发挥了巨大作用。对于超过20万令牌的文档:

  • GPT-5.4:会触发27.2万令牌的附加费,导致输入价格翻倍,达到$5.00/M。
  • Gemini 3.1 Pro:在高达2M令牌的范围内,输入价格保持在$2.00/M,无附加费。

例如,处理一份50万令牌的文档,Gemini成本为$1.00,而GPT-5.4成本为$2.50,在质量相同的情况下,Gemini节省了60%。

创意写作:GPT-5.4领先

GPT-5.4以4.4分对Gemini的4.0分胜出,这是所有类别中最大的质量差距。GPT能生成更自然、更多样化的散文,而Gemini的写作虽然称职,但略显程式化。如果写作质量是主要需求,GPT-5.4的溢价是值得的。

定价明细

指标GPT-5.4Gemini 3.1 Pro差异
输入/M$2.50$2.00Gemini 便宜20%
输出/M$15.00$12.00Gemini 便宜20%
缓存命中/M$0.25$0.20Gemini 便宜20%
↗ 阅读原文