Google Gemma 4重磅发布：Apache 2.0开源，性能飞跃

2026年4月2日，Google正式发布了Gemma 4系列模型，标志着开放模型在其参数范围内的一次重大代际飞跃。值得注意的是，Gemma家族首次采用Apache 2.0许可证发布，这意味着开发者无需寻求许可即可进行商业用途。自Gemma第一代发布以来，该系列模型已被下载超过4亿次，并催生了超过10万种变体。

Gemma 4系列包含四款模型，每款都针对不同的硬件平台进行了优化：

E2B：拥有有效20亿激活参数，专为智能手机、树莓派和Jetson Orin Nano等资源受限设备设计，提供128K上下文窗口。该模型原生支持图像、视频和音频处理，并优先考虑电池和内存效率。
E4B：拥有有效40亿激活参数，面向与E2B相同的硬件目标，但提供了更高的推理质量。它比E2B慢约三倍，但能力显著增强，同样支持图像、视频和音频。与早期版本相比，E4B的运行速度提升高达四倍，电池消耗减少60%。
26B MoE：这是一个混合专家（MoE）模型，总参数量为260亿，但在推理时仅激活38亿参数。它支持高达256K token的上下文窗口，在Arena AI文本排行榜上所有开放模型中排名第六。其量化版本可在消费级GPU上运行。
31B Dense：旗舰级模型，采用全密集架构，拥有256K上下文窗口。目前在Arena AI开放模型中排名第三。未量化版本可在一张80 GB H100显卡上运行；量化版本则可在消费级硬件上运行，使其成为理想的微调基座。

值得注意的是，E2B和E4B模型原生支持音频输入，而26B MoE和31B Dense模型则不具备此功能。若应用涉及语音识别，在该系列中，边缘模型是唯一选择。

Google声称Gemma 4的性能超越了其参数量20倍的模型。来自第三方机构Artificial Analysis的基准测试数据进一步验证了这一说法：

科学推理（GPQA Diamond）：31B模型在推理模式下得分85.7%，在400亿参数以下的开放模型中位居第二，仅次于Qwen3.5 27B的85.8%。31B的效率也值得关注，在同等质量下，其生成的输出token约为120万个，而Qwen3.5 27B为150万个，计算资源消耗更少。26B MoE在GPQA Diamond上得分为79.2%，超越了OpenAI的gpt-oss-120B（76.2%），突显了两者之间高达940亿参数的巨大效率差异。
Agentic工具使用（τ2-bench Retail）：在多步骤工具使用方面的表现实现了显著飞跃。31B和26B模型分别取得了86.4%和85.5%的成绩，与Gemma 3 27B在该基准测试中的6.6%相比，改进是颠覆性的，表明模型处理Agentic任务的方式发生了质变。
数学与编程（AIME 2026 & LiveCodeBench v6）：在数学和编程领域也观察到了类似的巨大提升。在AIME 2026上，31B和26B模型分别达到了89.2%和88.3%，远高于Gemma 3 27B的20.8%。在LiveCodeBench v6上，31B模型得分为80.0%，26B模型为77.1%，而Gemma 3 27B仅为29.1%。
边缘模型性能：专为受限环境设计的E4B模型在LiveCodeBench上达到52.0%，在GPQA Diamond上达到58.6%，对于其硬件定位而言表现合理。

Google Gemma 4重磅发布：Apache 2.0开源，性能飞跃

推荐阅读

谷歌Gemma 4全面开源，小模型跑赢大模型，AI落地边缘设备新机遇

Claude Code技能隐藏Model字段：智能体优化与成本节约秘籍

OpenAI将ChatGPT语音模式带入苹果CarPlay

相关工具与资源推荐

相关技能市场

Matt Pocock's AI Skills