谷歌DeepMind近日正式发布了Gemma 4系列开放模型,并在AI社区引发广泛关注。该系列包含E2B、E4B、26B A4B (MoE) 和31B密集模型四种尺寸。其中,31B模型已在Hugging Face上提供,并采用Apache 2.0许可。这一许可变更意义重大,因为它移除了此前Gemma版本所采用的Google定制许可中的使用限制,极大地便利了模型的商业部署。
Gemma 4在各项基准测试中表现出色。31B模型在未借助工具的情况下,AIME 2026得分达到89.2%,LiveCodeBench v6得分80%,Codeforces ELO评分高达2150。相比之下,Gemma 3 27B在相同的Codeforces基准测试中得分为110。即便更小的E2B模型(有效参数仅23亿)也在MMLU Pro (67.6% vs 60%)、GPQA Diamond (42.4% vs 43.4%) 以及LiveCodeBench (29.1% vs 44%) 等多个指标上超越了Gemma 3 27B。
31B模型是一个拥有307亿参数的密集模型,具备256K的上下文窗口,并采用了混合注意力机制。该机制将局部滑动窗口注意力(1024个token窗口)与全局注意力层交错使用,且最后一层始终为全局注意力。针对长上下文任务,全局层利用带有比例RoPE(p-RoPE)的统一键值(Keys and Values)来实现规模化下的内存效率,同时保持推理质量不显著下降。
Gemma 4支持文本和图像的多模态输入,配备了一个5.5亿参数的视觉编码器。模型能够以可配置的token预算(每张图片70到1120个token)处理不同分辨率的图像。较低的预算适用于分类等需要速度的任务,而较高的预算则适用于OCR和文档解析等需要精细细节的任务。此外,E2B和E4B型号还额外支持长达30秒的音频输入,这使得开发者可以为语音应用构建单模型管线。
Gemma 4内置了可配置的“思考模式”。通过在系统提示中包含<|think|>即可激活该模式,移除则禁用。模型会在最终答案之前,以<|channel>thought
[reasoning]<channel|>块的形式输出其推理过程。在多轮对话中,开发者需要在下一个用户回合之前将思考内容从历史记录中去除,因为思考痕迹不应传递回用户。
编程是Gemma 4的一个显著优势。31B模型高达2150的Codeforces ELO评分,在同等规模的开放权重模型中是一个重大突破。在r/LocalLLaMA社区,有用户截图显示31B模型在LMSys上的排名甚至超越了备受赞誉的GLM-5。
该模型已在Hugging Face上发布,可通过标准的Transformers接口进行加载。对于文本和图像输入,可以使用AutoProcessor和AutoModelForCausalLM。如果处理图像或视频(或E2B/E4B上的音频),则推荐使用AutoModelForMultimodalLM。