谷歌最新发布的开源模型Gemma 4,实现了文本、图像和音频在设备上的完全处理。它通过代理(Agentic)技能,无需云端连接即可独立调用如维基百科或交互式地图等工具。
运行Gemma 4所需的Google AI Edge Gallery应用在Android和iOS平台上免费提供。自Gemma 4发布以来,该应用在iOS App Store的免费生产力应用下载榜单中迅速攀升至第四位,仅次于Claude、Gemini和ChatGPT。
Gemma 4基于与谷歌专有模型Gemini 3相同的研究成果构建,但采用商业友好的Apache 2.0许可。谷歌表示,自第一代Gemma模型推出以来,Gemma家族累计下载量已超过4亿次。所有模型均支持超过140种语言的文本、图像和音频处理。
最新版本Gemma 4提供了四种模型尺寸,覆盖从手机到服务器的广泛应用。其中,E2B和E4B专为智能手机设计。“E”代表“有效参数”,指推理过程中实际活跃的参数数量。量化后,E2B模型在设备上占用约1.3 GB存储空间,而E4B则需要约2.5 GB。
更大的26B和31B版本则面向服务器和高性能硬件。26B版本采用混合专家(MoE)架构,包含128位专家,任意时刻仅有38亿参数处于活跃状态。密集型31B模型则提供了高达256,000个token的上下文窗口。
谷歌还与Arm和高通合作,针对现有移动芯片优化了手机版本。据谷歌称,Gemma 4在Android设备上的运行速度比上一代快四倍,同时将电池消耗降低多达60%。Arm的基准测试甚至显示出更大的提升:如果设备配备支持SME2指令集(一种直接在芯片上加速AI模型矩阵运算的扩展)的新款Arm芯片,处理速度平均可提升5.5倍。
该应用要求操作系统为Android 12或iOS 17。两款手机尺寸的Gemma 4模型对RAM有不同要求:E2B量化后占用约1.3 GB,需6 GB RAM设备;E4B模型内存约2.5 GB,需至少8 GB RAM设备。
代理技能可以单独启用和管理。Gemma 4能够利用JavaScript技能直接在设备上生成二维码。除了基本的聊天、图像识别和音频转录功能外,该应用还提供谷歌称之为“代理技能”的功能,包括维基百科搜索、交互式地图、自动摘要和闪卡。Gemma 4还能描述照片、将语音输入转化为图表和可视化内容,甚至可以与其他本地模型(如文本转语音或图像生成)协同工作。谷歌通过演示技能展示了描述和播放动物叫声的能力。
据谷歌表示,图像识别功能也得到了显著升级。从图像、图表或手写体中提取文本的OCR任务,现在能提供明显更好的结果。模型对时间相关信息的处理能力也得到增强。