谷歌Gemma 4：Agentic AI免费上手机，数据不离设备

谷歌最新发布的开源模型Gemma 4，实现了文本、图像和音频在设备上的完全处理。它通过代理（Agentic）技能，无需云端连接即可独立调用如维基百科或交互式地图等工具。

运行Gemma 4所需的Google AI Edge Gallery应用在Android和iOS平台上免费提供。自Gemma 4发布以来，该应用在iOS App Store的免费生产力应用下载榜单中迅速攀升至第四位，仅次于Claude、Gemini和ChatGPT。

Gemma 4基于与谷歌专有模型Gemini 3相同的研究成果构建，但采用商业友好的Apache 2.0许可。谷歌表示，自第一代Gemma模型推出以来，Gemma家族累计下载量已超过4亿次。所有模型均支持超过140种语言的文本、图像和音频处理。

最新版本Gemma 4提供了四种模型尺寸，覆盖从手机到服务器的广泛应用。其中，E2B和E4B专为智能手机设计。“E”代表“有效参数”，指推理过程中实际活跃的参数数量。量化后，E2B模型在设备上占用约1.3 GB存储空间，而E4B则需要约2.5 GB。

更大的26B和31B版本则面向服务器和高性能硬件。26B版本采用混合专家（MoE）架构，包含128位专家，任意时刻仅有38亿参数处于活跃状态。密集型31B模型则提供了高达256,000个token的上下文窗口。

谷歌还与Arm和高通合作，针对现有移动芯片优化了手机版本。据谷歌称，Gemma 4在Android设备上的运行速度比上一代快四倍，同时将电池消耗降低多达60%。Arm的基准测试甚至显示出更大的提升：如果设备配备支持SME2指令集（一种直接在芯片上加速AI模型矩阵运算的扩展）的新款Arm芯片，处理速度平均可提升5.5倍。

该应用要求操作系统为Android 12或iOS 17。两款手机尺寸的Gemma 4模型对RAM有不同要求：E2B量化后占用约1.3 GB，需6 GB RAM设备；E4B模型内存约2.5 GB，需至少8 GB RAM设备。

代理技能可以单独启用和管理。Gemma 4能够利用JavaScript技能直接在设备上生成二维码。除了基本的聊天、图像识别和音频转录功能外，该应用还提供谷歌称之为“代理技能”的功能，包括维基百科搜索、交互式地图、自动摘要和闪卡。Gemma 4还能描述照片、将语音输入转化为图表和可视化内容，甚至可以与其他本地模型（如文本转语音或图像生成）协同工作。谷歌通过演示技能展示了描述和播放动物叫声的能力。

据谷歌表示，图像识别功能也得到了显著升级。从图像、图表或手写体中提取文本的OCR任务，现在能提供明显更好的结果。模型对时间相关信息的处理能力也得到增强。

谷歌Gemma 4：Agentic AI免费上手机，数据不离设备

推荐阅读

谷歌发布Gemma 4：Apache 2.0许可开放模型，多模态与编程能力强劲

OpenClaw：构建安全本地优先AI Agent运行时

终端AI编码助手深度对比：Claude Code vs. Codex CLI