谷歌近日发布了其第四代Gemma开源模型,这些新模型针对AI Agent和编码进行了优化,并采用了更开放的Apache 2.0许可证,旨在吸引企业用户。
此次发布正值中国大模型(LLMs)如月之暗面(Moonshot AI)、阿里巴巴和Z.AI等产品持续涌现,其中许多模型在性能上已能与OpenAI的GPT-5或Anthropic的Claude相媲美。谷歌此举旨在为企业客户提供一个本土化替代方案,且该方案承诺不会收集敏感的企业数据来训练未来的模型。
由谷歌DeepMind团队开发的Gemma第四代模型带来了多项显著改进,包括“高级推理能力”,以提升在数学和指令遵循方面的表现,支持超过140种语言,原生函数调用,以及视频和音频输入功能。
与之前的Gemma模型一样,谷歌提供了多种尺寸的版本,以满足从单板计算机、智能手机到笔记本电脑和企业数据中心等不同应用场景的需求。
其中,参数量最大的310亿参数大模型,谷歌表示已对其进行调优以最大化输出质量。鉴于其尺寸,该模型既不会抢占谷歌更大型专有模型的市场,又足够小巧,企业无需花费数十万美元购置GPU服务器即可运行或进行微调。
根据谷歌的数据,这款模型在16位未量化状态下,可以在单个80GB H100 GPU上运行。同时,如果采用4位精度,该模型足够小,可以利用Llama.cpp或Ollama等框架,在Nvidia RTX 4090或AMD RX 7900 XTX等24GB GPU上运行。
对于需要更低延迟(即更快响应速度)的应用,Gemma 4系列还包含一个260亿参数的模型,该模型采用了专家混合(MoE)架构。
在推理过程中,该模型的128个专家子集中,仅有一部分(总计38亿活跃参数)被用于处理和生成每个token。只要模型能载入显存,它的token生成速度就远超同等大小的密集模型。
当然,更高的速度是以输出质量略有下降为代价的,因为只有部分参数参与了输出处理。然而,在内存较慢的设备(如笔记本电脑或消费级显卡)上运行时,这种权衡可能非常值得。
这两款模型都具备256,000个token的上下文窗口,使其非常适合作为本地代码助手使用,这也是谷歌在发布公告中重点强调的应用场景。
除了上述模型,还有两款针对智能手机和树莓派等低端边缘硬件优化的LLM。这些模型提供两种尺寸,有效参数分别为20亿和40亿。这里的“有效”是关键词。这些模型实际的参数量分别为51亿和80亿,但通过使用分层嵌入(PLE)技术,谷歌成功减小了它们的有效尺寸。