第 18 期 | 生产环境部署：VPS 到 GPU 集群

20 分钟阅读 | 更新于：2026-05-07

好的，作为技术教育专家，我将为您撰写这篇关于 Hermes Agent 生产环境部署的深度教程。

副标题：硬核工业部署方案——云服务器选择、集群化编排、企业内网部署并设计对应的高可用应急策略。

欢迎来到 Hermes Agent 系列教程的第 18 期。在前面的课程中，我们已经深入探索了 Hermes Agent 的核心功能，从模型配置、技能扩展到记忆系统。现在，是时候将我们的智能体从开发环境推向广阔的生产世界了。本期我们将聚焦于将 Hermes Agent 进行工业级部署，确保其在高并发、高可用的生产环境中稳定、高效地运行。

学习目标

完成本期课程后，您将能够：

评估并选择合适的生产部署环境：从简单的 VPS 到复杂的 GPU 集群，理解不同方案的优劣与适用场景。
掌握容器化部署：使用 Docker 和 Docker Compose 将 Hermes Agent 及其依赖打包，实现环境一致性与快速部署。
实施 Kubernetes 集群化编排：将 Hermes Agent 部署到 Kubernetes (K8s) 集群，实现自动扩缩容、故障自愈与滚动更新。
解决企业内网部署的挑战：了解在隔离网络中部署 Agent 的特殊考量，如代理配置和私有依赖管理。
设计并实施高可用 (High Availability) 策略：确保 Agent 服务的健壮性，消除单点故障，并制定基本的灾难恢复计划。

核心概念讲解

在进入实战之前，我们必须理解几个关键的 DevOps 和 MLOps 概念。这些是构建稳定、可扩展的生产系统的基石。

1. 部署环境的选择 (Deployment Environment)

VPS (Virtual Private Server)：最基础的云服务器。它提供了一个独立的、资源受限的虚拟环境。
- 优点：成本低廉、配置简单、适合个人项目、原型验证或低流量应用。
- 缺点：单点故障 (Single Point of Failure, SPOF)，服务器宕机则服务中断；扩缩容通常需要手动操作且可能导致停机；资源（CPU/RAM/GPU）有限。
专用 GPU 服务器 (Dedicated GPU Server)：物理服务器或云端高性能实例，配备强大的 GPU。
- 优点：为本地大模型推理提供极致性能，无虚拟化开销。
- 缺点：成本高昂，运维复杂，资源利用率可能不高（闲置时仍在付费）。
云端 GPU 实例 (Cloud GPU Instances)：如 AWS EC2 P/G 系列、Google Cloud N1/A2 系列、Azure NC 系列。
- 优点：按需付费，弹性伸缩，与云生态系统（存储、网络、数据库）深度集成。
- 缺点：配置和管理有一定学习曲线，长期运行成本可能高于专用服务器。
Kubernetes (K8s) Cluster：容器编排的业界标准。它将一组物理或虚拟机构建成一个统一的资源池，自动化地部署、扩展和管理容器化应用。
- 优点：高可用性、自动伸缩、故障自愈、滚动更新、声明式配置。是构建大规模、弹性微服务应用的首选。
- 缺点：学习曲线陡峭，集群本身的搭建和维护成本较高。

2. 容器化与编排 (Containerization & Orchestration)

Docker：一个开源的应用容器引擎。它允许开发者将应用及其所有依赖（库、运行时、系统工具）打包到一个轻量级、可移植的容器 (Container) 中。
- 核心价值："Build once, run anywhere." 确保了从开发到测试再到生产环境的一致性，彻底解决了“在我机器上能跑”的经典问题。
Kubernetes (K8s)：源于 Google 的 Borg 系统，K8s 负责自动化管理成百上千个容器的生命周期。
- 核心组件：
  - Pod: K8s 中最小的部署单元，通常包含一个或多个紧密关联的容器。
  - Deployment: 定义了 Pod 的期望状态（如副本数量、镜像版本），并负责维持这个状态。
  - Service: 为一组 Pod 提供一个稳定的网络入口（IP 地址和 DNS 名称），实现服务发现和负载均衡。
  - PersistentVolume (PV) 和 PersistentVolumeClaim (PVC): 用于管理持久化存储，确保 Pod 重启或迁移后数据不丢失，这对于 Hermes Agent 的 Memory 系统至关重要。
  - ConfigMap & Secret: 用于将配置和敏感信息（如 API Keys）与应用镜像解耦。

3. 高可用性 (High Availability, HA)

HA 的核心目标是消除单点故障，确保系统在部分组件发生故障时仍能持续提供服务。常见策略包括：

冗余 (Redundancy)：运行多个应用实例（副本），分布在不同的物理节点或可用区。
负载均衡 (Load Balancing)：将流量分发到所有健康的实例上，避免单一实例过载。
健康检查 (Health Checks)：定期检查应用实例的健康状况，自动移除或重启有问题的实例。
数据备份与恢复 (Data Backup & Recovery)：定期备份持久化数据（如用户画像、记忆数据库），并制定恢复流程。

💻 实战演示

我们将循序渐进，从最简单的 VPS 部署开始，逐步升级到复杂的 K8s 集群部署。

第 1 步：基础部署 - 使用 Docker 和 Docker Compose 在 VPS 上运行

这是最快、最直接的生产化方式，适合个人项目或内部小范围使用。

前提条件：

一台已安装 Docker 和 Docker Compose 的 VPS。
Hermes Agent 的项目代码。

1. 创建 Dockerfile

在 Hermes Agent 项目根目录下创建 Dockerfile，用于构建应用镜像。

# Dockerfile

# 使用一个包含 Python 和基础构建工具的官方镜像作为基础
FROM python:3.11-slim-buster AS builder

# 设置工作目录
WORKDIR /app

# 安装诗歌（Python依赖管理工具）
RUN pip install poetry

# 复制依赖定义文件
COPY poetry.lock pyproject.toml ./

# 安装项目依赖，--no-root 表示不安装项目本身，只安装依赖
# --no-dev 表示不安装开发依赖，减小镜像体积
RUN poetry config virtualenvs.create false && \
    poetry install --no-dev --no-interaction --no-ansi

# --- 正式镜像 ---
FROM python:3.11-slim-buster

WORKDIR /app

# 从构建阶段复制已安装的依赖
COPY --from=builder /usr/local/lib/python3.11/site-packages /usr/local/lib/python3.11/site-packages
COPY --from=builder /usr/local/bin /usr/local/bin

# 复制应用代码
COPY . .

# 暴露 Agent 服务的端口（假设为 8000）
EXPOSE 8000

# 启动应用的命令
CMD ["python", "main.py"]

说明：我们使用了多阶段构建 (multi-stage build)。builder 阶段负责安装所有依赖，最终的生产镜像只从 builder 阶段拷贝必要的依赖和应用代码，这可以显著减小最终镜像的体积，提升安全性。

2. 创建 docker-compose.yml

为了管理 Hermes Agent 及其可能依赖的服务（如 Redis 作为 Memory 后端），我们使用 Docker Compose。

# docker-compose.yml
version: '3.8'

services:
  hermes-agent:
    build: .
    container_name: hermes_agent_prod
    restart: always
    ports:
      - "8000:8000" # 将主机的 8000 端口映射到容器的 8000 端口
    volumes:
      - ./config.prod.yaml:/app/config.yaml # 挂载生产环境配置文件
      - agent_data:/app/data # 挂载数据卷，用于持久化
    environment:
      - OPENAI_API_KEY=${OPENAI_API_KEY} # 从环境变量读取敏感信息
      - MEMORY_BACKEND=redis
      - REDIS_HOST=hermes_redis
    depends_on:
      - hermes_redis

  hermes_redis:
    image: redis:7-alpine
    container_name: hermes_redis_prod
    restart: always
    volumes:
      - redis_data:/data

volumes:
  agent_data:
  redis_data:

说明：
- restart: always 确保容器在意外退出或服务器重启后能自动重启。
- volumes 用于数据持久化。config.prod.yaml 挂载了生产配置文件，agent_data 和 redis_data 是命名卷，用于保存 Agent 的工作数据和 Redis 数据。
- environment 用于传递配置，特别是像 OPENAI_API_KEY 这样的敏感信息，推荐使用环境变量或 .env 文件传入，而不是硬编码在配置文件中。

3. 部署

在 VPS 上执行以下命令：

# 创建 .env 文件并填入你的 API Key
echo "OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxx" > .env

# 构建并启动服务 (后台运行)
docker-compose up --build -d

# 查看运行状态
docker-compose ps

# 查看日志
docker-compose logs -f hermes-agent

至此，你的 Hermes Agent 已经在 VPS 上稳定运行了。但这仍然是一个单点服务。

第 2 步：进阶部署 - 迁移到 Kubernetes (K8s) 集群

现在，我们将 Agent 部署到 K8s，以获得高可用性和可扩展性。

前提条件：

一个可用的 K8s 集群 (可以是云服务商提供的如 GKE, EKS, AKS，或自建的集群)。
kubectl 命令行工具已配置并连接到集群。
一个容器镜像仓库 (如 Docker Hub, GCR, ECR)，用于存放我们构建的 Hermes Agent 镜像。

1. 构建并推送镜像

# 登录你的镜像仓库
docker login your-registry.io

# 构建镜像并打上标签
docker build -t your-registry.io/hermes-agent:v1.0.0 .

# 推送镜像
docker push your-registry.io/hermes-agent:v1.0.0

2. 编写 K8s Manifests (YAML 文件)

我们将创建几个 YAML 文件来定义部署。

a. hermes-configmap.yaml - 配置文件

apiVersion: v1
kind: ConfigMap
metadata:
  name: hermes-agent-config
data:
  config.yaml: |
    # 这里是你的非敏感配置
    server:
      host: "0.0.0.0"
      port: 8000
    memory:
      backend: "redis"
      redis_host: "hermes-redis-service" # 使用 K8s Service 名称

b. hermes-secret.yaml - 敏感信息

apiVersion: v1
kind: Secret
metadata:
  name: hermes-agent-secret
type: Opaque
stringData:
  openai-api-key: "sk-xxxxxxxxxxxxxxxxxxxx" # 实际生产中应使用更安全的方式管理 secret

c. hermes-redis-deployment.yaml - Redis 部署

apiVersion: apps/v1
kind: Deployment
metadata:
  name: hermes-redis
spec:
  replicas: 1
  selector:
    matchLabels:
      app: hermes-redis
  template:
    metadata:
      labels:
        app: hermes-redis
    spec:
      containers:
      - name: redis
        image: redis:7-alpine
        ports:
        - containerPort: 6379
---
apiVersion: v1
kind: Service
metadata:
  name: hermes-redis-service
spec:
  selector:
    app: hermes-redis
  ports:
  - protocol: TCP
    port: 6379
    targetPort: 6379

d. hermes-agent-deployment.yaml - Hermes Agent 核心部署

apiVersion: apps/v1
kind: Deployment
metadata:
  name: hermes-agent-deployment
spec:
  replicas: 3 # <-- 高可用性的起点：运行 3 个副本
  selector:
    matchLabels:
      app: hermes-agent
  template:
    metadata:
      labels:
        app: hermes-agent
    spec:
      containers:
      - name: hermes-agent
        image: your-registry.io/hermes-agent:v1.0.0 # 使用你自己的镜像
        ports:
        - containerPort: 8000
        env:
        - name: OPENAI_API_KEY
          valueFrom:
            secretKeyRef:
              name: hermes-agent-secret
              key: openai-api-key
        volumeMounts:
        - name: config-volume
          mountPath: /app/config.yaml
          subPath: config.yaml
        # --- 健康检查 ---
        livenessProbe:
          httpGet:
            path: /health # 假设你的应用有一个 /health 端点
            port: 8000
          initialDelaySeconds: 15
          periodSeconds: 20
        readinessProbe:
          httpGet:
            path: /ready
            port: 8000
          initialDelaySeconds: 5
          periodSeconds: 10
      volumes:
      - name: config-volume
        configMap:
          name: hermes-agent-config

e. hermes-agent-service.yaml - 对外暴露服务

apiVersion: v1
kind: Service
metadata:
  name: hermes-agent-service
spec:
  type: LoadBalancer # <-- 云服务商会自动创建一个负载均衡器
  selector:
    app: hermes-agent
  ports:
  - protocol: TCP
    port: 80 # 外部访问的端口
    targetPort: 8000 # 容器暴露的端口

3. 部署到集群

# 依次应用所有配置
kubectl apply -f hermes-configmap.yaml
kubectl apply -f hermes-secret.yaml
kubectl apply -f hermes-redis-deployment.yaml
kubectl apply -f hermes-agent-deployment.yaml
kubectl apply -f hermes-agent-service.yaml

# 检查部署状态
kubectl get deployments
kubectl get pods -o wide
kubectl get service hermes-agent-service # 获取外部 IP

现在，你的 Hermes Agent 已经以高可用的方式运行在 K8s 集群中了。K8s 会自动处理 Pod 的调度、故障恢复和流量负载均衡。

第 3 步：企业级考量 - 内网部署与高可用策略

1. 企业内网部署

在无法访问公网的企业环境中部署时，需要特殊处理：

网络代理：如果需要通过 HTTP/HTTPS 代理访问外部 API (如 OpenAI)，需要在 Deployment 的 env 部分设置代理环境变量：
```
env:
- name: HTTP_PROXY
  value: "http://your-proxy.com:port"
- name: HTTPS_PROXY
  value: "http://your-proxy.com:port"
```
私有镜像仓库 (Private Registry)：企业通常使用 Harbor、Nexus 或云厂商提供的私有仓库。你需要先创建 imagePullSecrets，然后在 Deployment 的 spec.template.spec 中引用它，以便 K8s 有权限拉取镜像。
本地模型与依赖：如果 Agent 使用本地大模型，你需要将模型文件通过 PersistentVolume 挂载到所有 Pod 中。对于 Python 依赖，可以搭建一个私有的 PyPI 镜像（如 devpi）来管理。

2. 强化高可用 (HA) 策略

水平自动扩缩容 (Horizontal Pod Autoscaler, HPA)：根据 CPU 或内存使用率自动增减 Pod 数量。

# 创建 HPA，当 CPU 使用率超过 80% 时自动扩容，最多 10 个 Pod
kubectl autoscale deployment hermes-agent-deployment --cpu-percent=80 --min=3 --max=10

跨可用区部署 (Multi-AZ Deployment)：在 K8s 集群层面，确保你的 Node 节点分布在云服务商的多个可用区 (Availability Zones)。这可以防止单个数据中心的故障导致整个服务中断。
数据备份与灾难恢复 (DR)：
- 数据库备份：为你的 Redis 或其他持久化存储设置定期快照备份。
- 配置备份：将所有 K8s YAML 文件纳入 Git 版本控制。
- 工具：使用 Velero 等工具可以备份整个 K8s 集群的状态，包括 PV 快照，实现一键式的集群级灾难恢复。

涉及命令

Docker & Docker Compose:

docker-compose up --build -d: 构建镜像并在后台启动所有服务。
docker-compose ps: 查看当前运行的服务状态。
docker-compose logs -f <service_name>: 实时跟踪服务的日志。
docker build -t <tag> .: 构建 Docker 镜像。
docker push <tag>: 推送镜像到仓库。

Kubernetes (kubectl):

kubectl apply -f <filename.yaml>: 应用或更新一个资源配置。
kubectl get pods: 查看所有 Pod 的状态。
kubectl get deployments: 查看 Deployment 的状态。
kubectl get services: 查看 Service 的状态及外部 IP。
kubectl describe pod <pod_name>: 查看 Pod 的详细信息和事件，用于排错。
kubectl logs -f <pod_name>: 实时跟踪 Pod 的日志。
kubectl scale deployment <name> --replicas=<num>: 手动伸缩 Deployment 的副本数。
kubectl autoscale deployment ...: 创建 Horizontal Pod Autoscaler。

要点回顾

部署方案是演进的：从简单的 VPS 开始，随着业务复杂度和流量的增长，逐步迁移到 Docker Compose，最终采用 Kubernetes 实现工业级部署。
容器化是现代部署的基石：Docker 保证了环境的一致性和交付的便携性。
Kubernetes 提供终极弹性与可靠性：通过 Deployment、Service、Probe 等机制，K8s 实现了应用的自愈、自动伸缩和高可用。
配置与代码分离：始终使用 ConfigMap、Secret 或环境变量来管理配置，切勿将敏感信息硬编码在代码或镜像中。
高可用是一个系统工程：它不仅是运行多个副本，还包括健康检查、负载均衡、跨区域部署和完善的数据备份恢复策略。
企业内网部署有其特殊性：需要重点关注网络、安全和私有依赖管理。

将 Hermes Agent 从一个本地脚本转变为一个能在全球范围内提供7x24小时不间断服务的智能体，是一次激动人心的工程挑战。希望本期内容能为您铺平这条从开发到生产的道路。

参考资料

← 上一课时第 17 期 | 日志系统与可观测性实践

下一课时 → 第 19 期 | 社区生态与 Skill Marketplace 贡献指南