谷歌正式发布了Gemma 4,这是其迄今为止最强大的开放模型家族。Gemma 4的四款新模型可以运行在从智能手机到工作站的各种设备上,并且首次以完全开放的Apache 2.0许可证发布。
这些模型基于谷歌专有模型Gemini 3的相同技术构建,并采用商业友好的Apache 2.0许可证发布,赋予开发者对其数据、基础设施和模型的完全控制权。此前的Gemma版本采用的是限制性更强的谷歌专有许可证。
谷歌表示,所有Gemma 4模型在多步推理和数学任务上均有显著改进。对于智能体(agentic)工作流,它们原生支持函数调用、结构化JSON输出和系统指令,这使得自主智能体能够利用各种工具和API。
Gemma 4模型家族涵盖了从边缘设备到工作站的四种尺寸:Effective 2B (E2B)、Effective 4B (E4B)、一个26B混合专家(MoE)模型和一个31B密集(Dense)模型。这四款模型都超越了简单的聊天功能,能够处理复杂的逻辑和智能体工作流。
| 模型 | Active parameters | 架构 | 上下文窗口 | 目标硬件 | 离线操作 | 视觉输入 | 音频输入 | 消费级GPU量化 | Arena AI 排名 (开放) | 特殊功能 |
|---|---|---|---|---|---|---|---|---|---|---|
| E2B | “有效” 20亿 | - | 128K tokens | 智能手机, Raspberry Pi, Jetson Orin Nano | ✅ | ✅ | ✅ | - | - | 边缘设备计算和内存效率高 |
| E4B | “有效” 40亿 | - | 128K tokens | 智能手机, Raspberry Pi, Jetson Orin Nano | ✅ | ✅ | ✅ | - | - | 边缘设备计算和内存效率高 |
| 26B MoE | 38亿 active | MoE | 高达 256K tokens | 个人电脑, 消费级GPU (量化), 工作站, 加速器 | ✅ | ✅ | - | ✅ | #6 | 优化延迟, 38亿 active parameters, 快速token生成 |
| 31B Dense | - | Dense | 高达 256K tokens | 个人电脑, 消费级GPU (量化), 工作站, 加速器 | ✅ | ✅ | - | ✅ | #3 | 最高质量, 微调基础 |
目前,在Arena AI文本排行榜上,31B模型位列全球所有开放模型的第3位,而26B MoE模型排名第6。谷歌表示,Gemma 4的性能超越了其体积20倍的模型。对于开发者而言,这意味着在显著降低硬件要求的同时,获得高性能的结果。
| 基准 | Gemma 4 31B IT Thinking | Gemma 4 26B A4B IT Thinking | Gemma 4 E4B IT Thinking | Gemma 4 E2B IT Thinking | Gemma 3 27B IT |
|---|---|---|---|---|---|
| Arena AI (文本) (截至 24/2/6) | 1452 | 1441 | - | - | 1365 |
| MMLU (多语言问答) (无工具) | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| MMMU Pro (多模态推理) | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| AIME 2026 (数学) (无工具) | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 (编程竞赛) | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| GPQA Diamond (科学知识) (无工具) | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| τ2-bench (智能体工具使用) (零售) | 86.4% | 85.5% | 57.5% | 29.4% | 6.6% |
两个较大的模型主要面向工作站和服务器。31B模型的未量化bfloat16权重可以部署在单个80 GB NVIDIA H100 GPU上,这为本地高性能部署提供了可能。