News

Jaeger v2携OTel GenAI约定,揭秘AI智能体“黑箱”

Jaeger v2携OTel GenAI约定,揭秘AI智能体“黑箱”

AI智能体本质上是分布式系统,涉及大量的异步操作,例如大型语言模型(LLM)调用、工具调用、内存查找以及多步骤推理循环。过去,可观测性工具在提供整体视图方面存在不足,通常仅限于日志和仪表盘,无法在整个智能体运行中进行全面的追踪。Jaeger v2 通过其底层架构的转变,直接解决了这一关键空白。

Jaeger v2 于2024年末发布,其内部架构经历了彻底的重构,将OpenTelemetry Collector框架作为核心基础。这一根本性变革带来了多项实际优势:

  • 原生OTLP摄入: 消除了OTLP到Jaeger内部格式的转换层,确保遥测数据原样流入,避免了转换过程中的数据丢失。
  • 单一二进制、OTel原生配置: 之前多组件(jaeger-agent, jaeger-collector, jaeger-ingester, jaeger-query)的分离被整合为一个单一二进制文件,并使用与OTel Collector相同的YAML模型进行配置。
  • 全面访问OpenTelemetry Collector生态系统: Jaeger v2 现在可以天然地利用广泛的OTel Collector生态系统,包括尾部采样(现在通过上游OTel contrib处理器成为一等公民特性)、Span-to-Metric连接器、PII过滤处理器和Kafka管道。

至关重要的是,这种架构转变意味着Jaeger v2原生支持OpenTelemetry新的GenAI语义约定。OpenTelemetry正在积极开发这些约定,以标准化AI工作负载在追踪中的表示方式。它们定义了以下特定数据结构:

  • 模型Span: 单个LLM推理调用,捕获Token计数、模型名称和延迟等详细信息。
  • 智能体Span: 智能体内部更高层次的推理循环和编排步骤。
  • 事件: 关键事件,如Prompt输入、LLM完成和工具调用结果。
  • 指标: Token使用量、延迟分布和错误率的聚合数据。

这些约定已开始在主流提供商中实施,包括OpenAI、Anthropic、AWS Bedrock和Azure AI Inference。此外,Model Context Protocol (MCP) 的草案也正在制定中,以确保通过MCP兼容服务器进行的工具调用可以作为一等Span进行追踪。尽管这些约定仍处于“开发”状态,但相关的仪表化工作正在积极推进,LangChain、LlamaIndex和OpenAI自身的SDK等库已开始发出OTel兼容的遥测数据。Jaeger v2 原生支持OTLP,能够无缝接收和处理所有这些数据。

对于开发AI智能体的团队而言,这种集成具有变革性意义。传统的分布式追踪挑战是识别微服务中的慢速环节,而现在则扩展到追踪复杂的智能体工作流:从用户Prompt到智能体规划、多次LLM调用、工具调用、重试和分支逻辑,直至最终响应。如果没有适当的追踪上下文传播和标准化约定,这些复杂的流程仍将是“黑箱”。Jaeger v2和OTel GenAI约定提供了理解、调试和优化AI智能体行为所需的关键可见性。

↗ 阅读原文