谷歌发布Gemma 4：Apache 2.0许可开放模型，多模态与编程能力强劲

谷歌DeepMind近日正式发布了Gemma 4系列开放模型，并在AI社区引发广泛关注。该系列包含E2B、E4B、26B A4B (MoE) 和31B密集模型四种尺寸。其中，31B模型已在Hugging Face上提供，并采用Apache 2.0许可。这一许可变更意义重大，因为它移除了此前Gemma版本所采用的Google定制许可中的使用限制，极大地便利了模型的商业部署。

Gemma 4在各项基准测试中表现出色。31B模型在未借助工具的情况下，AIME 2026得分达到89.2%，LiveCodeBench v6得分80%，Codeforces ELO评分高达2150。相比之下，Gemma 3 27B在相同的Codeforces基准测试中得分为110。即便更小的E2B模型（有效参数仅23亿）也在MMLU Pro (67.6% vs 60%)、GPQA Diamond (42.4% vs 43.4%) 以及LiveCodeBench (29.1% vs 44%) 等多个指标上超越了Gemma 3 27B。

31B模型是一个拥有307亿参数的密集模型，具备256K的上下文窗口，并采用了混合注意力机制。该机制将局部滑动窗口注意力（1024个token窗口）与全局注意力层交错使用，且最后一层始终为全局注意力。针对长上下文任务，全局层利用带有比例RoPE（p-RoPE）的统一键值（Keys and Values）来实现规模化下的内存效率，同时保持推理质量不显著下降。

Gemma 4支持文本和图像的多模态输入，配备了一个5.5亿参数的视觉编码器。模型能够以可配置的token预算（每张图片70到1120个token）处理不同分辨率的图像。较低的预算适用于分类等需要速度的任务，而较高的预算则适用于OCR和文档解析等需要精细细节的任务。此外，E2B和E4B型号还额外支持长达30秒的音频输入，这使得开发者可以为语音应用构建单模型管线。

Gemma 4内置了可配置的“思考模式”。通过在系统提示中包含<|think|>即可激活该模式，移除则禁用。模型会在最终答案之前，以<|channel>thought [reasoning]<channel|>块的形式输出其推理过程。在多轮对话中，开发者需要在下一个用户回合之前将思考内容从历史记录中去除，因为思考痕迹不应传递回用户。

编程是Gemma 4的一个显著优势。31B模型高达2150的Codeforces ELO评分，在同等规模的开放权重模型中是一个重大突破。在r/LocalLLaMA社区，有用户截图显示31B模型在LMSys上的排名甚至超越了备受赞誉的GLM-5。

该模型已在Hugging Face上发布，可通过标准的Transformers接口进行加载。对于文本和图像输入，可以使用AutoProcessor和AutoModelForCausalLM。如果处理图像或视频（或E2B/E4B上的音频），则推荐使用AutoModelForMultimodalLM。

谷歌发布Gemma 4：Apache 2.0许可开放模型，多模态与编程能力强劲

推荐阅读

OpenClaw：构建安全本地优先AI Agent运行时

终端AI编码助手深度对比：Claude Code vs. Codex CLI

谷歌Gemma 4：Apache 2.0许可解锁商业潜力，性能超预期