Jaeger v2携OTel GenAI约定，揭秘AI智能体“黑箱”

AI智能体本质上是分布式系统，涉及大量的异步操作，例如大型语言模型（LLM）调用、工具调用、内存查找以及多步骤推理循环。过去，可观测性工具在提供整体视图方面存在不足，通常仅限于日志和仪表盘，无法在整个智能体运行中进行全面的追踪。Jaeger v2 通过其底层架构的转变，直接解决了这一关键空白。

Jaeger v2 于2024年末发布，其内部架构经历了彻底的重构，将OpenTelemetry Collector框架作为核心基础。这一根本性变革带来了多项实际优势：

原生OTLP摄入： 消除了OTLP到Jaeger内部格式的转换层，确保遥测数据原样流入，避免了转换过程中的数据丢失。
单一二进制、OTel原生配置： 之前多组件（jaeger-agent, jaeger-collector, jaeger-ingester, jaeger-query）的分离被整合为一个单一二进制文件，并使用与OTel Collector相同的YAML模型进行配置。
全面访问OpenTelemetry Collector生态系统： Jaeger v2 现在可以天然地利用广泛的OTel Collector生态系统，包括尾部采样（现在通过上游OTel contrib处理器成为一等公民特性）、Span-to-Metric连接器、PII过滤处理器和Kafka管道。

至关重要的是，这种架构转变意味着Jaeger v2原生支持OpenTelemetry新的GenAI语义约定。OpenTelemetry正在积极开发这些约定，以标准化AI工作负载在追踪中的表示方式。它们定义了以下特定数据结构：

模型Span： 单个LLM推理调用，捕获Token计数、模型名称和延迟等详细信息。
智能体Span： 智能体内部更高层次的推理循环和编排步骤。
事件： 关键事件，如Prompt输入、LLM完成和工具调用结果。
指标： Token使用量、延迟分布和错误率的聚合数据。

这些约定已开始在主流提供商中实施，包括OpenAI、Anthropic、AWS Bedrock和Azure AI Inference。此外，Model Context Protocol (MCP) 的草案也正在制定中，以确保通过MCP兼容服务器进行的工具调用可以作为一等Span进行追踪。尽管这些约定仍处于“开发”状态，但相关的仪表化工作正在积极推进，LangChain、LlamaIndex和OpenAI自身的SDK等库已开始发出OTel兼容的遥测数据。Jaeger v2 原生支持OTLP，能够无缝接收和处理所有这些数据。

对于开发AI智能体的团队而言，这种集成具有变革性意义。传统的分布式追踪挑战是识别微服务中的慢速环节，而现在则扩展到追踪复杂的智能体工作流：从用户Prompt到智能体规划、多次LLM调用、工具调用、重试和分支逻辑，直至最终响应。如果没有适当的追踪上下文传播和标准化约定，这些复杂的流程仍将是“黑箱”。Jaeger v2和OTel GenAI约定提供了理解、调试和优化AI智能体行为所需的关键可见性。