在本地脚本中运行 AI Agent 并不复杂,但在生产环境中跨团队、跨重启实现可靠运行,并为每个上下文提供隔离环境,则是一个巨大的挑战。近日,知名 AI 网关 LiteLLM 的开发团队 BerriAI 开源了专为解决此类问题设计的 LiteLLM Agent Platform。
该平台被定义为一个简单、自托管的基础设施层,旨在支持在生产环境中运行多个 Agent。它主要解决 Agent 的状态化难题:Agent 在对话轮次中携带会话历史、工具调用结果和中间推理过程。如果运行 Agent 的容器在部署期间崩溃、重启或被替换,除非有明确的管理机制,否则会话状态将丢失。此外,不同团队往往需要不同的运行环境、工具、密钥和访问权限,这意味着不能将所有 Agent 混在同一个共享容器中。
LiteLLM Agent Platform 管理两个核心基础设施原语:针对每团队和每上下文的沙箱隔离,以及跨 Pod 重启与升级的会话连续性。在技术架构上,该平台包含一个基于 Next.js 的仪表盘,用于管理会话聊天、Agent 增删改查(CRUD)和实时状态。代码库主要由 TypeScript (92.8%) 编写,并利用 Postgres 作为持久化存储后端,通过初始化容器(init container)确保数据库在应用启动前完成模式迁移。
在沙箱层级(即 Agent 实际执行的隔离运行时),该平台利用 Kubernetes 的 kubernetes-sigs/agent-sandbox CRD(自定义资源定义)来管理生命周期。本地开发则使用 kind (Kubernetes in Docker),让开发者无需云提供商即可在本地模拟 K8s 集群。
此外,平台还包含一个名为 opencode 的 Harness 系统,预置了运行 Claude Code 或 OpenAI Codex 等编程 Agent 的配置,并配备 Vault 代理进行凭据管理。BerriAI 还维护了一个通用的 litellm-agent-runtime 库,用于在 LiteLLM 代理分配的每会话虚拟机中执行 Agent 逻辑,支持通过 Harness 配置进行高度定制。