谷歌昨日以Apache 2.0许可证发布了Gemma 4模型,其基准测试结果看起来令人印象深刻。随后,社区迅速投入到实际测试中,以验证其真实表现。经过对大量论坛讨论、微调实验以及早期采用者报告的汇总分析,我们得以一窥Gemma 4在实际应用中的优劣。
利好消息
Apache 2.0许可证意义重大:此前的Gemma版本采用定制的谷歌许可证,在技术上可能限制使用。Apache 2.0则完全消除了这种不确定性。对于那些基于开源模型构建商业产品的开发者而言,这一点比任何基准测试数据都更重要。
多语言质量表现突出:用户在德语、阿拉伯语、越南语和法语等非英语任务中测试后报告称,Gemma 4的表现优于Qwen 3.5。一位用户称其在翻译方面“独树一帜”,另一位则表示它“让之前的translate-gemma瞬间过时”。对于全球企业部署而言,这是一个显著的差异化优势。
ELO评分揭示不同故事:在LMArena排行榜上,31B模型获得2150分,这使其超越了GPT-OSS-120B,并与GPT-5-mini相当。然而,侧面基准测试表格显示它与Qwen 3.5 27B大致持平。ELO(人类偏好)与自动化基准测试之间的差异表明,即使原始准确率相似,Gemma 4产生的响应也更受人类青睐。
E2B模型表现异常:多位用户证实,2.3B有效参数的E2B模型在大多数基准测试中超越了Gemma 3 27B。一位用户在配备32GB内存的i7笔记本上运行该模型后报告称,在金融分析方面,它“不仅速度更快,而且提供的答案也明显优于”Qwen 3.5 4B。
未曾预料的问题
推理速度
推理速度是Gemma 4面临的一个突出问题。多位用户报告称,Gemma 4的MoE模型(26B-A4B)运行速度明显慢于Qwen 3.5的同等模型:
- 一位用户指出,在相同的5060 Ti 16GB显卡上,Gemma 4 26B-A4B的速度为11 tokens/秒,而Qwen 3.5 35B-A3B则超过60 tokens/秒。
- 另一位用户证实,在相同的量化水平下,Gemma 4的上下文显存占用更高。
- 甚至有用户在DGX Spark上运行后问道“为什么它超级慢?”,目前仍无明确答案。
对于31B稠密模型,用户报告称在双NVIDIA GPU(5070 Ti + 5060 Ti)上的速度为18-25 tokens/秒,这虽然可以接受,但并不算快。Gemma 4与Qwen 3.5之间存在的速度差距,对于注重延迟的生产部署而言,是一个令人担忧的问题。
显存占用
Gemma模型历来在上下文处理方面显存占用较高,Gemma 4似乎延续了这一模式。一位用户注意到,Gemma 3 27B Q4模型,即使只有20K的上下文,也只能勉强装入一块5090显卡。