最近,有开发者进行了一项针对Google Gemini 3.1 Pro和OpenAI GPT-5.4的实际性能对比测试,旨在超越传统基准测试,深入探究两款模型在真实工作负载中的表现。测试涵盖了质量、速度和实际成本等多个维度。
测试设置
该测试共计执行了500项任务,具体分类如下:
- 编程任务:150项
- 推理/数学任务:100项
- 文档分析任务:150项
- 创意写作任务:100项
所有任务均使用相同的提示词发送给两款模型。质量评估由人工(主测试者及两位同事)进行1-5分的打分并取平均值。每项任务的成本,包括缓存命中成本,都进行了详细追踪。
测试结果概览
从总体上看,GPT-5.4在质量评分上以0.1分的微弱优势领先(4.2 vs 4.1),而Gemini 3.1 Pro则在成本上展现出显著优势,整体节省了31%。
| 类别 | GPT-5.4 质量 | Gemini 3.1 Pro 质量 | 赢家 | GPT-5.4 成本 | Gemini 成本 | 成本节省 |
|---|---|---|---|---|---|---|
| 编程 (150) | 4.3 | 4.1 | GPT | $18.75 | $13.20 | 30% |
| 推理 (100) | 4.1 | 4.2 | Gemini | $14.50 | $10.80 | 26% |
| 文档分析 (150) | 4.0 | 4.2 | Gemini | $22.50 | $14.40 | 36% |
| 创意写作 (100) | 4.4 | 4.0 | GPT | $12.00 | $8.40 | 30% |
| 总计 | 4.2 | 4.1 | 平局 | $67.75 | $46.80 | 31% |
具体类别分析
编程任务:GPT-5.4略胜一筹
在编程任务中,GPT-5.4以4.3分对Gemini的4.1分胜出。主要差异体现在:
- 多文件重构:GPT在理解跨文件关系方面表现更佳。
- 边缘案例处理:GPT在生成的代码中能捕获更多边缘案例。
- 简单函数:两者质量基本相同,差距主要在复杂任务上显现。
对于简单的编程任务(如CRUD操作、API集成、工具函数),两者质量差异不明显,选择Gemini可节省30%成本。
推理任务:Gemini胜出
Gemini在数学和逻辑任务中以4.2分领先GPT的4.1分。令人惊喜的是,Gemini的“思维模式”在不额外计费的情况下,生成了更彻底的链式思考推理。OpenAI的o3模型虽然也提供推理能力,但其推理令牌通常作为隐藏的输出令牌计费($8/M),这可能使账单成本增加3-10倍,而Gemini将推理令牌包含在标准输出价格($12/M)中。
文档分析:Gemini优势明显
Gemini 3.1 Pro的2M上下文窗口在此类别中发挥了巨大作用。对于超过20万令牌的文档:
- GPT-5.4:会触发27.2万令牌的附加费,导致输入价格翻倍,达到$5.00/M。
- Gemini 3.1 Pro:在高达2M令牌的范围内,输入价格保持在$2.00/M,无附加费。
例如,处理一份50万令牌的文档,Gemini成本为$1.00,而GPT-5.4成本为$2.50,在质量相同的情况下,Gemini节省了60%。
创意写作:GPT-5.4领先
GPT-5.4以4.4分对Gemini的4.0分胜出,这是所有类别中最大的质量差距。GPT能生成更自然、更多样化的散文,而Gemini的写作虽然称职,但略显程式化。如果写作质量是主要需求,GPT-5.4的溢价是值得的。
定价明细
| 指标 | GPT-5.4 | Gemini 3.1 Pro | 差异 |
|---|---|---|---|
| 输入/M | $2.50 | $2.00 | Gemini 便宜20% |
| 输出/M | $15.00 | $12.00 | Gemini 便宜20% |
| 缓存命中/M | $0.25 | $0.20 | Gemini 便宜20% |