News

Google Gemma 4重磅发布:Apache 2.0开源,性能飞跃

Google Gemma 4重磅发布:Apache 2.0开源,性能飞跃

2026年4月2日,Google正式发布了Gemma 4系列模型,标志着开放模型在其参数范围内的一次重大代际飞跃。值得注意的是,Gemma家族首次采用Apache 2.0许可证发布,这意味着开发者无需寻求许可即可进行商业用途。自Gemma第一代发布以来,该系列模型已被下载超过4亿次,并催生了超过10万种变体。

Gemma 4系列包含四款模型,每款都针对不同的硬件平台进行了优化:

  • E2B:拥有有效20亿激活参数,专为智能手机、树莓派和Jetson Orin Nano等资源受限设备设计,提供128K上下文窗口。该模型原生支持图像、视频和音频处理,并优先考虑电池和内存效率。

  • E4B:拥有有效40亿激活参数,面向与E2B相同的硬件目标,但提供了更高的推理质量。它比E2B慢约三倍,但能力显著增强,同样支持图像、视频和音频。与早期版本相比,E4B的运行速度提升高达四倍,电池消耗减少60%。

  • 26B MoE:这是一个混合专家(MoE)模型,总参数量为260亿,但在推理时仅激活38亿参数。它支持高达256K token的上下文窗口,在Arena AI文本排行榜上所有开放模型中排名第六。其量化版本可在消费级GPU上运行。

  • 31B Dense:旗舰级模型,采用全密集架构,拥有256K上下文窗口。目前在Arena AI开放模型中排名第三。未量化版本可在一张80 GB H100显卡上运行;量化版本则可在消费级硬件上运行,使其成为理想的微调基座。

值得注意的是,E2B和E4B模型原生支持音频输入,而26B MoE和31B Dense模型则不具备此功能。若应用涉及语音识别,在该系列中,边缘模型是唯一选择。

Google声称Gemma 4的性能超越了其参数量20倍的模型。来自第三方机构Artificial Analysis的基准测试数据进一步验证了这一说法:

  • 科学推理(GPQA Diamond):31B模型在推理模式下得分85.7%,在400亿参数以下的开放模型中位居第二,仅次于Qwen3.5 27B的85.8%。31B的效率也值得关注,在同等质量下,其生成的输出token约为120万个,而Qwen3.5 27B为150万个,计算资源消耗更少。26B MoE在GPQA Diamond上得分为79.2%,超越了OpenAI的gpt-oss-120B(76.2%),突显了两者之间高达940亿参数的巨大效率差异。

  • Agentic工具使用(τ2-bench Retail):在多步骤工具使用方面的表现实现了显著飞跃。31B和26B模型分别取得了86.4%和85.5%的成绩,与Gemma 3 27B在该基准测试中的6.6%相比,改进是颠覆性的,表明模型处理Agentic任务的方式发生了质变。

  • 数学与编程(AIME 2026 & LiveCodeBench v6):在数学和编程领域也观察到了类似的巨大提升。在AIME 2026上,31B和26B模型分别达到了89.2%和88.3%,远高于Gemma 3 27B的20.8%。在LiveCodeBench v6上,31B模型得分为80.0%,26B模型为77.1%,而Gemma 3 27B仅为29.1%。

  • 边缘模型性能:专为受限环境设计的E4B模型在LiveCodeBench上达到52.0%,在GPQA Diamond上达到58.6%,对于其硬件定位而言表现合理。

↗ 阅读原文