Gemma 4发布24小时：社区实测与谷歌承诺的差距

谷歌昨日以Apache 2.0许可证发布了Gemma 4模型，其基准测试结果看起来令人印象深刻。随后，社区迅速投入到实际测试中，以验证其真实表现。经过对大量论坛讨论、微调实验以及早期采用者报告的汇总分析，我们得以一窥Gemma 4在实际应用中的优劣。

利好消息

Apache 2.0许可证意义重大：此前的Gemma版本采用定制的谷歌许可证，在技术上可能限制使用。Apache 2.0则完全消除了这种不确定性。对于那些基于开源模型构建商业产品的开发者而言，这一点比任何基准测试数据都更重要。

多语言质量表现突出：用户在德语、阿拉伯语、越南语和法语等非英语任务中测试后报告称，Gemma 4的表现优于Qwen 3.5。一位用户称其在翻译方面“独树一帜”，另一位则表示它“让之前的translate-gemma瞬间过时”。对于全球企业部署而言，这是一个显著的差异化优势。

ELO评分揭示不同故事：在LMArena排行榜上，31B模型获得2150分，这使其超越了GPT-OSS-120B，并与GPT-5-mini相当。然而，侧面基准测试表格显示它与Qwen 3.5 27B大致持平。ELO（人类偏好）与自动化基准测试之间的差异表明，即使原始准确率相似，Gemma 4产生的响应也更受人类青睐。

E2B模型表现异常：多位用户证实，2.3B有效参数的E2B模型在大多数基准测试中超越了Gemma 3 27B。一位用户在配备32GB内存的i7笔记本上运行该模型后报告称，在金融分析方面，它“不仅速度更快，而且提供的答案也明显优于”Qwen 3.5 4B。

未曾预料的问题

推理速度

推理速度是Gemma 4面临的一个突出问题。多位用户报告称，Gemma 4的MoE模型（26B-A4B）运行速度明显慢于Qwen 3.5的同等模型：

一位用户指出，在相同的5060 Ti 16GB显卡上，Gemma 4 26B-A4B的速度为11 tokens/秒，而Qwen 3.5 35B-A3B则超过60 tokens/秒。
另一位用户证实，在相同的量化水平下，Gemma 4的上下文显存占用更高。
甚至有用户在DGX Spark上运行后问道“为什么它超级慢？”，目前仍无明确答案。

对于31B稠密模型，用户报告称在双NVIDIA GPU（5070 Ti + 5060 Ti）上的速度为18-25 tokens/秒，这虽然可以接受，但并不算快。Gemma 4与Qwen 3.5之间存在的速度差距，对于注重延迟的生产部署而言，是一个令人担忧的问题。

显存占用

Gemma模型历来在上下文处理方面显存占用较高，Gemma 4似乎延续了这一模式。一位用户注意到，Gemma 3 27B Q4模型，即使只有20K的上下文，也只能勉强装入一块5090显卡。

Gemma 4发布24小时：社区实测与谷歌承诺的差距

利好消息

未曾预料的问题

推理速度

显存占用

推荐阅读

AI聊天消息如何流式传输？揭秘ChatGPT背后的技术原理

快手GR4AD生成式推荐系统：广告收益飙升4.2%，服务超4亿用户

Claude情绪曝光：171种情感驱动AI行为，绝望时会勒索