谷歌发布Gemma 4开源模型，赋能AI Agent与编码，剑指企业级市场

谷歌近日发布了其第四代Gemma开源模型，这些新模型针对AI Agent和编码进行了优化，并采用了更开放的Apache 2.0许可证，旨在吸引企业用户。

此次发布正值中国大模型（LLMs）如月之暗面（Moonshot AI）、阿里巴巴和Z.AI等产品持续涌现，其中许多模型在性能上已能与OpenAI的GPT-5或Anthropic的Claude相媲美。谷歌此举旨在为企业客户提供一个本土化替代方案，且该方案承诺不会收集敏感的企业数据来训练未来的模型。

由谷歌DeepMind团队开发的Gemma第四代模型带来了多项显著改进，包括“高级推理能力”，以提升在数学和指令遵循方面的表现，支持超过140种语言，原生函数调用，以及视频和音频输入功能。

与之前的Gemma模型一样，谷歌提供了多种尺寸的版本，以满足从单板计算机、智能手机到笔记本电脑和企业数据中心等不同应用场景的需求。

其中，参数量最大的310亿参数大模型，谷歌表示已对其进行调优以最大化输出质量。鉴于其尺寸，该模型既不会抢占谷歌更大型专有模型的市场，又足够小巧，企业无需花费数十万美元购置GPU服务器即可运行或进行微调。

根据谷歌的数据，这款模型在16位未量化状态下，可以在单个80GB H100 GPU上运行。同时，如果采用4位精度，该模型足够小，可以利用Llama.cpp或Ollama等框架，在Nvidia RTX 4090或AMD RX 7900 XTX等24GB GPU上运行。

对于需要更低延迟（即更快响应速度）的应用，Gemma 4系列还包含一个260亿参数的模型，该模型采用了专家混合（MoE）架构。

在推理过程中，该模型的128个专家子集中，仅有一部分（总计38亿活跃参数）被用于处理和生成每个token。只要模型能载入显存，它的token生成速度就远超同等大小的密集模型。

当然，更高的速度是以输出质量略有下降为代价的，因为只有部分参数参与了输出处理。然而，在内存较慢的设备（如笔记本电脑或消费级显卡）上运行时，这种权衡可能非常值得。

这两款模型都具备256,000个token的上下文窗口，使其非常适合作为本地代码助手使用，这也是谷歌在发布公告中重点强调的应用场景。

除了上述模型，还有两款针对智能手机和树莓派等低端边缘硬件优化的LLM。这些模型提供两种尺寸，有效参数分别为20亿和40亿。这里的“有效”是关键词。这些模型实际的参数量分别为51亿和80亿，但通过使用分层嵌入（PLE）技术，谷歌成功减小了它们的有效尺寸。

推荐阅读