Google 近日发布了 Gemma 4 系列模型,此举标志着其从“开放”走向“开源”的重要里程碑。与此前采用限制性条款的 Gemma 模型不同,Gemma 4 系列全面转向 Apache 2.0 许可证,这意味着开发者可以自由地将其用于个人、商业及企业项目,不受用途、再分发和修改的限制,为 AI Agent 和边缘计算的应用落地打开了巨大空间。
Gemma 4 系列共发布四个不同尺寸的模型,底层技术与 Gemini 3 同源,旨在覆盖从边缘设备到高性能工作站的广泛硬件平台:
- E2B / E4B:专为手机和 IoT 设备优化,与 Google Pixel 团队、高通及联发科深度合作。它们在推理时分别仅激活 2B 和 4B 参数,极大地节省内存和电量。这些模型支持 128K 上下文窗口,具备图像、视频和原生音频输入能力,可在 Pixel 手机、树莓派和 Jetson Orin Nano 等设备上完全离线运行,提供近乎零延迟的体验。Android 开发者可通过 AICore 开发者预览版提前体验 Agent Mode。
- 26B MoE:采用混合专家(Mixture-of-Experts)架构,推理时仅激活全部参数中的 3.8B。这种设计在保证极快推理速度的同时维持了高质量,其 Arena AI 文本评分达到 1441,位列开源模型第六。
- 31B Dense:追求极致的原始性能,Arena AI 文本评分达到 1452,位列开源模型第三。未量化的 bfloat16 权重可在单张 80GB NVIDIA H100 GPU 上运行,量化版本也支持消费级 GPU,为本地微调提供了强大的基础。
在能力层面,Gemma 4 系列的四款模型高度一致:它们均支持多步推理和复杂逻辑,原生支持函数调用、JSON 结构化输出和系统指令,这使得开发者能够构建能与外部工具和 API 交互的自主 AI Agent。此外,它们还支持图像和视频输入,擅长 OCR 和图表理解等视觉任务,并预训练了超过 140 种语言。其中,26B 和 31B 模型的上下文窗口进一步扩展至 256K,能够在单次提示中处理完整的代码库或长篇文档。
基准测试数据直观地展现了 Gemma 4 相比上一代 Gemma 3 的显著提升。例如,Gemma 4 31B 在数学推理基准 AIME 2026 上的得分从 20.8% 跃升至 89.2%,代码能力基准 LiveCodeBench v6 从 29.1% 提升至 80.0%,而衡量 Agent 工具调用能力的 τ2-bench 则从 6.6% 大幅提高到 86.4%。这些关键指标的提升,直接对应了当前最核心的推理、编程和 Agent 应用场景。
参数效率是 Gemma 4 的另一大亮点。从“模型性能对比参数量”的散点图来看,Gemma 4 以 26B 和 31B 的体量,实现了通常需要数百亿甚至千亿参数才能达到的 Elo 评分。具体而言,26B MoE 的 Arena AI 评分接近参数量约 15 倍的 Qwen3.5-397B-A17B,而 31B Dense 的评分则与体量在 600B 以上的 GLM-5 处于同一梯队。Google 将此概括为“单位参数智能密度前所未有”。
边缘端模型的性能也同样令人瞩目。E2B 在多语言问答基准 MMMLU 上达到 60.0%,在科学知识基准 GPQA Diamond 上达到 43.4%。值得注意的是,这是一款仅激活 2B 参数、可在手机上运行的模型。相比之下,上一代 Gemma 3 27B 在 GPQA Diamond 上的得分是 42.4%,这意味着手机上的 2B 模型已经追平了上一代 270 亿参数的桌面模型。
在硬件生态合作方面,NVIDIA 已与 Google 深度合作,优化 Gemma 4 在 RTX GPU、DGX Spark 个人 AI 超级计算机以及 Jetson Orin Nano 上的推理表现。NVIDIA Tensor Core 和 CUDA 软件栈为 Gemma 4 提供了开箱即用的高吞吐、低延迟支持。此外,本地 Agent 应用 OpenClaw 也已迅速适配最新模型,能够调用用户本地文件和应用上下文来自动化执行任务。
此次 Gemma 4 切换至 Apache 2.0 协议,是其从“开放”走向“开源”的实质性飞跃。开发者现在可以将模型合法地打包进产品、服务和硬件设备中进行交付。对于医疗、金融等对数据主权和合规性有严格要求的行业用户,完全本地运行意味着数据无需上传云端,同时又能享受到前沿的 AI 能力。Apache 2.0 许可证内置的专利保护机制,也为企业级用户提供了额外的法律保障。
Hugging Face 联合创始人兼 CEO Clément Delangue 称此次授权切换为“一个重要的里程碑”。自 2024 年 2 月首代发布以来,Gemma 系列总下载量已超 4 亿次,社区衍生变体超过 10 万个。目前,模型权重已上架 Hugging Face、Kaggle 和 Ollama,Transformers、TRL、vLLM、llama.cpp、MLX、Unsloth、SGLang、Keras 等主流框架均已在发布当天提供了支持。
本地部署可以通过 Ollama 或 llama.cpp 配合 GGUF 格式权重快速上手;Unsloth Studio 也同步提供了量化模型的微调和部署支持。对于需要云端扩展的场景,Google Vertex AI、Cloud Run 和 GKE 也已同步可用。
以 Gemma 4 为代表的小模型,正在重新定义 AI 的运行范式。过去,AI 模型多默认在数据中心运行,依赖云端调用。而 Gemma 4 则提供了在手机、树莓派乃至没有外网的工厂终端上本地完成完整模型推理的可能性。数据不离开设备,决策不经过云端,结合 Apache 2.0 的自由授权,极大地拓展了 AI 在敏感行业和边缘场景的落地空间。