谷歌Gemma 4全面开源，小模型跑赢大模型，AI落地边缘设备新机遇

Google 近日发布了 Gemma 4 系列模型，此举标志着其从“开放”走向“开源”的重要里程碑。与此前采用限制性条款的 Gemma 模型不同，Gemma 4 系列全面转向 Apache 2.0 许可证，这意味着开发者可以自由地将其用于个人、商业及企业项目，不受用途、再分发和修改的限制，为 AI Agent 和边缘计算的应用落地打开了巨大空间。

Gemma 4 系列共发布四个不同尺寸的模型，底层技术与 Gemini 3 同源，旨在覆盖从边缘设备到高性能工作站的广泛硬件平台：

E2B / E4B：专为手机和 IoT 设备优化，与 Google Pixel 团队、高通及联发科深度合作。它们在推理时分别仅激活 2B 和 4B 参数，极大地节省内存和电量。这些模型支持 128K 上下文窗口，具备图像、视频和原生音频输入能力，可在 Pixel 手机、树莓派和 Jetson Orin Nano 等设备上完全离线运行，提供近乎零延迟的体验。Android 开发者可通过 AICore 开发者预览版提前体验 Agent Mode。
26B MoE：采用混合专家（Mixture-of-Experts）架构，推理时仅激活全部参数中的 3.8B。这种设计在保证极快推理速度的同时维持了高质量，其 Arena AI 文本评分达到 1441，位列开源模型第六。
31B Dense：追求极致的原始性能，Arena AI 文本评分达到 1452，位列开源模型第三。未量化的 bfloat16 权重可在单张 80GB NVIDIA H100 GPU 上运行，量化版本也支持消费级 GPU，为本地微调提供了强大的基础。

在能力层面，Gemma 4 系列的四款模型高度一致：它们均支持多步推理和复杂逻辑，原生支持函数调用、JSON 结构化输出和系统指令，这使得开发者能够构建能与外部工具和 API 交互的自主 AI Agent。此外，它们还支持图像和视频输入，擅长 OCR 和图表理解等视觉任务，并预训练了超过 140 种语言。其中，26B 和 31B 模型的上下文窗口进一步扩展至 256K，能够在单次提示中处理完整的代码库或长篇文档。

基准测试数据直观地展现了 Gemma 4 相比上一代 Gemma 3 的显著提升。例如，Gemma 4 31B 在数学推理基准 AIME 2026 上的得分从 20.8% 跃升至 89.2%，代码能力基准 LiveCodeBench v6 从 29.1% 提升至 80.0%，而衡量 Agent 工具调用能力的 τ2-bench 则从 6.6% 大幅提高到 86.4%。这些关键指标的提升，直接对应了当前最核心的推理、编程和 Agent 应用场景。

参数效率是 Gemma 4 的另一大亮点。从“模型性能对比参数量”的散点图来看，Gemma 4 以 26B 和 31B 的体量，实现了通常需要数百亿甚至千亿参数才能达到的 Elo 评分。具体而言，26B MoE 的 Arena AI 评分接近参数量约 15 倍的 Qwen3.5-397B-A17B，而 31B Dense 的评分则与体量在 600B 以上的 GLM-5 处于同一梯队。Google 将此概括为“单位参数智能密度前所未有”。

边缘端模型的性能也同样令人瞩目。E2B 在多语言问答基准 MMMLU 上达到 60.0%，在科学知识基准 GPQA Diamond 上达到 43.4%。值得注意的是，这是一款仅激活 2B 参数、可在手机上运行的模型。相比之下，上一代 Gemma 3 27B 在 GPQA Diamond 上的得分是 42.4%，这意味着手机上的 2B 模型已经追平了上一代 270 亿参数的桌面模型。

在硬件生态合作方面，NVIDIA 已与 Google 深度合作，优化 Gemma 4 在 RTX GPU、DGX Spark 个人 AI 超级计算机以及 Jetson Orin Nano 上的推理表现。NVIDIA Tensor Core 和 CUDA 软件栈为 Gemma 4 提供了开箱即用的高吞吐、低延迟支持。此外，本地 Agent 应用 OpenClaw 也已迅速适配最新模型，能够调用用户本地文件和应用上下文来自动化执行任务。

此次 Gemma 4 切换至 Apache 2.0 协议，是其从“开放”走向“开源”的实质性飞跃。开发者现在可以将模型合法地打包进产品、服务和硬件设备中进行交付。对于医疗、金融等对数据主权和合规性有严格要求的行业用户，完全本地运行意味着数据无需上传云端，同时又能享受到前沿的 AI 能力。Apache 2.0 许可证内置的专利保护机制，也为企业级用户提供了额外的法律保障。

Hugging Face 联合创始人兼 CEO Clément Delangue 称此次授权切换为“一个重要的里程碑”。自 2024 年 2 月首代发布以来，Gemma 系列总下载量已超 4 亿次，社区衍生变体超过 10 万个。目前，模型权重已上架 Hugging Face、Kaggle 和 Ollama，Transformers、TRL、vLLM、llama.cpp、MLX、Unsloth、SGLang、Keras 等主流框架均已在发布当天提供了支持。

本地部署可以通过 Ollama 或 llama.cpp 配合 GGUF 格式权重快速上手；Unsloth Studio 也同步提供了量化模型的微调和部署支持。对于需要云端扩展的场景，Google Vertex AI、Cloud Run 和 GKE 也已同步可用。

以 Gemma 4 为代表的小模型，正在重新定义 AI 的运行范式。过去，AI 模型多默认在数据中心运行，依赖云端调用。而 Gemma 4 则提供了在手机、树莓派乃至没有外网的工厂终端上本地完成完整模型推理的可能性。数据不离开设备，决策不经过云端，结合 Apache 2.0 的自由授权，极大地拓展了 AI 在敏感行业和边缘场景的落地空间。

谷歌Gemma 4全面开源，小模型跑赢大模型，AI落地边缘设备新机遇

推荐阅读

Claude Code技能隐藏Model字段：智能体优化与成本节约秘籍

OpenAI将ChatGPT语音模式带入苹果CarPlay

AiPayGen发布AI智能体市场：开发者分润70%

相关工具与资源推荐

相关技能市场

Matt Pocock's AI Skills