第 01 期 | 认识 Gemma:Google 开源模型家族全景
副标题:Gemma 1/2/3 演进历程,与 Gemini 的关系,1B/4B/12B/27B 参数规模选择指南,开源许可与商用条款解读。
🎯 学习目标
完成本期课程后,您将能够:
- 理解 Google Gemma 模型家族的起源、核心理念及其与 Gemini 技术的关系。
- 掌握 Gemma 模型家族的演进历程,包括不同版本(如 Gemma 1 和 Gemma 2)的关键特性与参数规模(1B, 4B, 12B, 27B)。
- 根据实际应用场景和硬件资源,选择合适的 Gemma 模型参数规模。
- 清晰理解 Gemma 模型的开源许可协议,特别是其商用条款,确保合规使用。
📖 核心概念讲解
Google Gemma 是 Google DeepMind 推出的一系列轻量级、最先进的开放模型,旨在为开发者、研究人员和企业提供高性能、可定制的 AI 能力。它继承了 Google 在大型语言模型(LLM)领域,特别是 Gemini 模型家族上的领先技术和安全实践,并将这些前沿能力以开源形式释放出来。
1.1 Gemma 的起源与核心理念
Gemma 的诞生,是 Google DeepMind 致力于推动 AI 普及和创新的重要一步。其核心理念在于:
- 技术普惠: 将顶级 LLM 技术开放给更广泛的社区,降低 AI 开发门槛。
- 安全负责: 继承 Gemini 在安全性、伦理和负责任 AI 方面的严格标准。
- 高效灵活: 提供多种参数规模,优化模型性能与资源消耗,方便在不同硬件环境和应用场景中部署。
- 开源生态: 积极融入并贡献于开源 AI 生态,支持社区协作与创新。
Gemma 这个名字来源于拉丁语 gemma,意为“宝石”,象征着其作为“AI 宝石”的珍贵价值和潜力。
1.2 Gemma 与 Gemini 的关系:同源异构的兄弟
理解 Gemma,就必须理解它与 Google 旗舰模型 Gemini 的关系。
- 技术同源: Gemma 模型家族是基于与 Gemini 模型家族相同的研究和技术构建的。这意味着它们共享了许多底层的架构设计、训练方法和安全评估框架。可以想象成,Gemma 是 Gemini 技术基因在开源世界中的一种具象化和优化。
- 目标差异:
- Gemini: 定位为 Google 最强大的、最通用的多模态模型,旨在处理极其复杂、广泛的任务,通常通过 Google Cloud Vertex AI 或 Google AI Studio 等平台提供服务。
- Gemma: 定位为轻量级、高性能的开源模型,强调易于部署、微调和在本地或边缘设备上运行,更注重开发者和研究人员的自主掌控和定制能力。
- 规模与优化: Gemma 通常以更小的参数规模提供(尽管最新版本已达到 27B),并且在设计上更注重推理效率和资源消耗,使其更适合在资源受限的环境中运行。
简而言之,Gemma 并不是 Gemini 的“缩水版”,而是 Google 将其最先进的 AI 技术精炼、优化后,以开源形式推出的一个独立且高度相关的模型家族。它们是“同源异构”的兄弟,各自服务于不同的应用场景和用户群体。
1.3 Gemma 模型家族的演进与关键特性
Gemma 家族自推出以来,不断迭代和增强,主要经历了以下演进:
1.3.1 Gemma 1 (初始版本)
- 发布时间: 2024 年 2 月
- 主要规模: 2B (20 亿参数), 7B (70 亿参数)
- 核心特点:
- 首次将 Google 的先进 AI 技术以开源形式推出。
- 在多个基准测试中表现出色,超越同等规模的开源模型。
- 强调负责任 AI 和安全性。
- 许可: 初始版本采用特定的“Gemma 许可”,允许商业使用但有特定限制。
1.3.2 Gemma 2 (重大升级)
- 发布时间: 2024 年 6 月
- 主要规模: 9B (90 亿参数), 27B (270 亿参数)
- 核心特点:
- 性能飞跃: 在推理速度、准确性和安全性方面全面提升,特别是 27B 版本在多个基准测试中与更大规模的竞品模型持平甚至超越。
- 多模态支持: 引入了对多模态输入(图像+文本)的理解能力,尤其是在视觉问答和图像描述任务上表现突出。
- 超长上下文: 支持高达 128K tokens 的上下文窗口,能够处理极长的文档、代码库或对话历史。
- 新型架构: 采用了全新的架构设计,提高了推理效率和吞吐量。
- 许可变更: 采用更宽松的 Apache 2.0 许可,极大地便利了商业和研究使用。
1.3.3 Gemma 3 (展望与当前理解)
根据您的描述,Gemma 3 可能是指最新版本的模型,其中包含了 12B/27B 等规模,以及 128K 上下文和多模态能力。这实际上与 Gemma 2 的描述高度重合。在 Google 官方文档中,通常直接称之为 "Gemma models" 或 "Gemma 2", 而不严格区分 "Gemma 3"。我们目前将 12B/27B 视为 Gemma 家族中最新的高性能模型,它们继承并发展了 Gemma 2 的优秀特性。
Gemma 模型家族关键特性一览表:
| 特性 | 描述 |
|---|---|
| 模型规模 | 1B, 4B (Gemma 1.1/2.0), 9B, 27B (Gemma 2.0) |
| 架构基础 | 基于 Gemini 技术,Transformer 架构 |
| 多模态 | 支持 (Gemma 2.0 及其后续版本),可处理图像和文本输入 |
| 上下文窗口 | 高达 128K tokens (Gemma 2.0 及其后续版本),能够处理超长文本 |
| 推理优化 | 针对 CPU、GPU、TPU 等多种硬件进行了优化,支持量化 (e.g., 4-bit) |
| 部署选项 | Ollama, Hugging Face, JAX, Vertex AI, Google Kubernetes Engine (GKE) 等 |
| 微调支持 | 支持 LoRA/QLoRA 等高效微调技术 |
| 安全与伦理 | 继承 Google 负责任 AI 原则,内置安全过滤器,提供模型卡片 (Model Card) 详细说明 |
| 许可协议 | Apache 2.0 (Gemma 2.0 及其后续版本),允许商业使用 |
1.4 参数规模选择指南:1B/4B/12B/27B
Gemma 提供了从 1B 到 27B 的多种参数规模,以适应不同的硬件环境和应用需求。选择合适的模型至关重要。
1.4.1 模型参数与性能/资源关系
| 参数规模 | 性能 (相对) | 内存需求 (相对) | 推理速度 (相对) | 典型应用场景