第 09 期 | 跳出局部：处理工具节点中的异常态

更新于：2026-05-07

🎯 本期学习目标

各位未来的 AI 架构师们，晚上好！欢迎来到《LangGraph 多智能体专家课》的第 9 期。

在过去几期中，我们一直在构建一个理想化的、顺畅运行的 AI 内容机构。我们的 Planner 精准规划，Researcher 勤奋爬取，Writer 文思泉涌，Editor 妙笔生花。但现实世界，可不是你代码里那么“听话”的。

想象一下，我们的 Researcher Agent 正准备为一篇关于“LangGraph 最新特性”的文章爬取信息，它兴致勃勃地调用了我们精心设计的网络爬虫工具。突然，目标网站升级了反爬机制，或者网络波动，亦或是返回了 404 错误。Boom！整个 LangGraph 流程直接中断，用户看到的是一个冰冷冷的错误信息，而不是一篇精彩的文章。

这，就是我们今天要直面的“局部异常”问题。一个工具节点的小小失误，足以让整个系统崩溃。本期，我们将跳出这种“局部”思维，引入一套健壮的全局异常处理机制。

学完本期，你将能够：

深入理解 LangGraph 中工具节点异常处理的必要性：为何不能简单地让异常中断整个 Graph。
掌握 LangGraph 的状态管理与条件路由：如何将异常信息“编码”进状态，并作为 Graph 决策的依据。
实践为 AI 内容机构的 Researcher Agent 构建健壮的爬虫失败重试/兜底机制：让你的 Agent 在面对网络波动、反爬机制等外部不确定性时，依然能够优雅地应对。
学会设计和实现基于 Conditional Edge 的智能异常恢复逻辑：让 Graph 能够自动判断是重试、切换策略，还是向上报告。

准备好了吗？让我们一起将我们的 AI 内容机构，从“玻璃心”打造成“钢铁侠”！

📖 原理解析

在软件工程领域，有一句老话：“错误处理，是区分新手和专家的试金石。”在多智能体系统中，这句话更是金科玉律。你的智能体再聪明，如果一个核心工具因为外部环境的变化而崩溃，整个系统就成了“纸老虎”。

痛点：工具节点的“局部崩溃”如何影响全局？

我们的 AI 内容机构中，Researcher Agent 依赖爬虫工具获取最新信息。这个工具，就像一个伸向外部世界的触角。外部世界是混沌的：

网络不稳定：DNS 解析失败、连接超时、SSL 握手错误。
目标网站变化：网页结构调整、反爬策略升级（IP 封禁、User-Agent 识别）、验证码。
资源限制：爬取频率过高被限流、内存溢出。
预期之外的响应：返回 404/500 错误、空内容。

任何一个工具函数内部抛出的异常，如果未经处理，会直接中断当前节点，进而导致整个 LangGraph 的执行停止。这显然是不可接受的。我们希望的是，当爬虫失败时，Graph 能够：

捕获异常：而不是直接崩溃。
记录状态：知道是哪个 URL 失败了，失败原因是什么，尝试了多少次。
智能决策：根据失败情况，决定是再次尝试（重试），还是换一个 URL，或者通知 Planner 寻求替代方案。

LangGraph 的状态管理与智能路由

LangGraph 提供了强大的状态管理和条件路由能力，这正是我们实现健壮异常处理的基石。

状态（State）：Graph 的每一个节点都在共享和更新一个中心化的 state。当工具节点发生异常时，我们不应该让异常直接向上冒泡导致 Graph 崩溃，而应该在工具函数或其调用者（节点函数）内部捕获异常，然后将异常信息、重试次数等关键数据写入 state。
条件边（Conditional Edge）：这是 LangGraph 最强大的特性之一。通过定义一个返回字符串的函数，我们可以根据当前的 state 来动态决定 Graph 的下一个节点。当 state 中包含了异常信息和重试次数时，Conditional Edge 就可以成为我们实现“重试兜底逻辑”的“路由器”。

其核心思想是：将异常从“控制流中断”转化为“数据流中的一种特殊状态”。

Mermaid 图解：带异常处理的 Researcher 工作流

为了让大家更直观地理解，我们来看一下融入了异常处理的 Researcher Agent 工作流。

graph TD
    A[Start] --> B(Planner Node)
    B --> C{Researcher Node};
    C -- 调用 Scraper 工具 --> D[Scraper Tool];

    subgraph Scraper Tool 内部
        D -- 成功 --> D_SUCCESS(返回爬取内容)
        D -- 失败 --> D_FAILURE(抛出异常)
    end

    C -- Scraper Tool 返回内容 --> E{处理 Scraper 结果};
    E -- 爬取成功 --> F[更新 State: scraped_content, status=SUCCESS];
    E -- 爬取失败 --> G[更新 State: error_message, scrape_attempts++, status=FAILED];

    F --> H{Conditional Edge: 根据 State 决策};
    G --> H;

    H -- State.status == SUCCESS --> I(Writer Node);
    H -- State.status == FAILED && State.scrape_attempts < MAX_RETRIES --> C;
    H -- State.status == FAILED && State.scrape_attempts >= MAX_RETRIES --> J(Editor Node: 报告失败/寻求替代);
    I --> K[End];
    J --> K;

图解说明：

Planner Node：负责规划，比如给出要爬取的 URL。
Researcher Node：核心节点，它会调用 Scraper Tool。
Scraper Tool 内部：这是我们模拟或真实爬虫工具的执行区域。它可能成功返回内容，也可能因为各种原因抛出异常。
处理 Scraper 结果 (E)：这是 Researcher 节点内部的关键逻辑。它会 try-except 包裹 Scraper Tool 的调用。
- 如果成功，将 scraped_content 和 status=SUCCESS 写入 state。
- 如果失败，捕获异常，将 error_message、scrape_attempts 递增，并将 status=FAILED 写入 state。
Conditional Edge (H)：这是整个异常处理机制的“大脑”。它会检查当前的 state：
- 如果 status 是 SUCCESS，那就一切顺利，流程转到 Writer Node。
- 如果 status 是 FAILED 且 scrape_attempts 还没达到最大重试次数 MAX_RETRIES，那么 Graph 会再次路由回 Researcher Node，进行重试。
- 如果 status 是 FAILED 且 scrape_attempts 已经达到 MAX_RETRIES，说明重试无望，流程转到 Editor Node（或者一个专门的 Fallback Node），让 Editor 处理这种无法爬取的情况，比如修改文章主题，或者通知 Planner 寻找替代信息源。

通过这种方式，即使一个工具节点在局部出现问题，整个 Graph 也不会崩溃，而是能够根据预设的逻辑，优雅地进行重试、切换策略，或上报处理。这极大地提升了我们 AI 内容机构的鲁棒性和智能化水平。

💻 实战代码演练 (Agency项目中的具体应用)

好了，理论讲得再好，不如上手一敲。现在，我们来为我们的 AI 内容机构的 Researcher Agent 注入这种“抗压”能力。

我们将重点关注：

扩展 AgentState：加入异常处理和重试相关的字段。
模拟一个会失败的爬虫工具：方便我们测试。
重构 Researcher 节点函数：使其能够捕获异常并更新状态。
定义条件路由函数：实现重试和兜底逻辑。
构建并运行 Graph：演示异常捕获和重试流程。

import operator
from typing import TypedDict, Annotated, List, Union
from langchain_core.messages import BaseMessage, HumanMessage, AIMessage
from langchain_core.tools import tool
from langgraph.graph import StateGraph, END, START
import random
import time

# --- 1. 扩展 AgentState ---
# 定义我们LangGraph的状态类型
class AgentState(TypedDict):
    """
    LangGraph 的共享状态。
    这个状态会在所有节点之间传递和更新。
    """
    messages: Annotated[List[BaseMessage], operator.add] # 聊天历史
    current_topic: str # 当前内容创作的主题
    url_to_scrape: str # Researcher 需要爬取的 URL
    scraped_content: str # Researcher 爬取到的内容
    scrape_attempts: int # 爬取尝试次数
    error_message: str # 爬取失败时的错误信息
    status: str # 当前节点的状态，例如 "SUCCESS", "FAILED"

# --- 2. 模拟一个会失败的爬虫工具 ---
# 这个工具以一定概率失败，或者在特定尝试次数后失败，模拟真实世界的不确定性
@tool
def scrape_web_tool(url: str) -> str:
    """
    模拟一个网络爬虫工具。
    它会根据内部逻辑以一定概率失败，或者在多次重试后成功。
    """
    print(f"\n--- 正在尝试爬取 URL: {url} ---")
    
    # 模拟网络延迟
    time.sleep(1.5) 

    # 模拟失败逻辑
    # 假设前两次尝试有 70% 的概率失败
    # 第三次尝试有 30% 的概率失败
    # 第四次及以后，只有 10% 的概率失败
    # 模拟在 '特定网站' 上更容易失败
    
    # 获取当前状态中的尝试次数，这里需要从外部传入或者假设一个全局计数器
    # 但在LangGraph中，这个计数器会通过state传递，这里我们简化为随机模拟
    
    # 为了演示，我们让它在第一次和第二次尝试时大概率失败，第三次成功
    # 实际应用中，这个逻辑会在Researcher节点中根据state.scrape_attempts来判断
    
    fail_threshold = 0.7 # 默认失败概率
    if url == "http://problematic-site.com/data":
        fail_threshold = 0.9 # 特定网站更容易失败

    # 随机模拟失败
    if random.random() < fail_threshold:
        print(f"--- 爬取 {url} 失败！模拟网络错误或反爬 ---")
        raise Exception(f"Failed to fetch {url}: Connection timed out or blocked by site.")
    
    print(f"--- 爬取 {url} 成功！---")
    return f"这是从 {url} 爬取到的内容。包含了一些关于 LangGraph 异常处理和智能路由的深度分析。"

# --- 3. 重构 Researcher 节点函数 ---
# Researcher Agent 节点，负责调用爬虫工具并处理其结果
def researcher_node(state: AgentState) -> AgentState:
    """
    Researcher 节点：负责根据 Planner 的指令爬取网页内容。
    本节点增加了异常处理和重试逻辑。
    """
    print(f"\n--- 进入 Researcher 节点 (尝试次数: {state.get('scrape_attempts', 0) + 1}) ---")
    url = state.get("url_to_scrape")
    if not url:
        raise ValueError("Researcher 节点需要一个 'url_to_scrape' 才能工作。")

    current_attempts = state.get("scrape_attempts", 0)
    
    # 创建一个可变的状态副本
    new_state = state.copy()
    new_state["scrape_attempts"] = current_attempts + 1 # 每次进入都增加尝试次数
    new_state["error_message"] = "" # 重置错误信息

    try:
        # 尝试调用爬虫工具
        content = scrape_web_tool.invoke({"url": url})
        new_state["scraped_content"] = content
        new_state["status"] = "SUCCESS"
        new_state["messages"].append(AIMessage(content=f"Researcher 成功爬取了 {url}。"))
        print(f"--- Researcher 成功完成爬取，内容已更新到状态。---")

    except Exception as e:
        # 捕获异常，更新状态
        new_state["scraped_content"] = "" # 清空上次可能留下的内容
        new_state["error_message"] = str(e)
        new_state["status"] = "FAILED"
        new_state["messages"].append(AIMessage(content=f"Researcher 爬取 {url} 失败: {e}"))
        print(f"--- Researcher 爬取失败，错误信息已记录到状态。---")
    
    return new_state

# --- 4. 定义条件路由函数 (决策下一步) ---
# 这个函数根据 Researcher 节点返回的状态来决定 Graph 的下一步走向
MAX_RETRIES = 3 # 最大重试次数
def decide_next_step(state: AgentState) -> str:
    """
    根据 Researcher 节点的状态，决定 Graph 的下一步：
    - 如果爬取成功，进入 Writer 节点。
    - 如果爬取失败且未达到最大重试次数，重新进入 Researcher 节点进行重试。
    - 如果爬取失败且已达到最大重试次数，进入 Editor 节点（作为兜底/上报）。
    """
    print(f"\n--- 进入决策节点 (当前状态: {state.get('status')}, 尝试次数: {state.get('scrape_attempts')}) ---")
    if state["status"] == "SUCCESS":
        print("--- 决策: 爬取成功，转向 Writer 节点。---")
        return "writer"
    elif state["status"] == "FAILED":
        if state["scrape_attempts"] < MAX_RETRIES:
            print(f"--- 决策: 爬取失败，但未达最大重试次数 ({state['scrape_attempts']}/{MAX_RETRIES})，将重试 Researcher 节点。---")
            return "researcher" # 重新回到 Researcher 节点进行重试
        else:
            print(f"--- 决策: 爬取失败，已达最大重试次数 ({state['scrape_attempts']}/{MAX_RETRIES})，转向 Editor 节点进行兜底处理。---")
            return "editor" # 放弃重试，转到 Editor 节点进行后续处理
    else:
        # 理论上不应该出现，但为了健壮性，可以抛出错误或默认处理
        raise ValueError(f"未知状态: {state['status']}")

# --- 5. 构建并运行 Graph ---

# 定义其他占位符节点
def planner_node(state: AgentState) -> AgentState:
    print("\n--- 进入 Planner 节点 ---")
    # 模拟 Planner 给出爬取任务
    if not state.get("url_to_scrape"):
        state["url_to_scrape"] = "http://example.com/latest-ai-news" # 默认一个URL
        # state["url_to_scrape"] = "http://problematic-site.com/data" # 测试失败重试的URL
    state["messages"].append(AIMessage(content=f"Planner 已确定任务：爬取 {state['url_to_scrape']}。"))
    print(f"--- Planner 任务完成，URL: {state['url_to_scrape']} ---")
    return state

def writer_node(state: AgentState) -> AgentState:
    print("\n--- 进入 Writer 节点 ---")
    content = state.get("scraped_content", "未获取到内容。")
    if not content:
        content = "由于Researcher未能获取到有效内容，Writer将基于现有信息进行创作。"
    
    # 模拟 Writer 根据内容进行创作
    article = f"基于以下信息，Writer创作了一篇文章：\n{content}\n\n文章主题：{state.get('current_topic', '未指定')}"
    state["messages"].append(AIMessage(content=f"Writer 已完成初稿。\n内容摘要：{article[:100]}..."))
    print(f"--- Writer 完成创作。---")
    return state

def editor_node(state: AgentState) -> AgentState:
    print("\n--- 进入 Editor 节点 (兜底/上报) ---")
    error_msg = state.get("error_message", "未知错误。")
    # 模拟 Editor 处理异常情况
    if state["status"] == "FAILED":
        state["messages"].append(AIMessage(content=f"Editor 注意到 Researcher 爬取失败 (错误: {error_msg})，已尝试 {state['scrape_attempts']} 次。将采取替代方案或报告给 Planner。"))
        print(f"--- Editor 处理爬取失败：{error_msg} ---")
    else:
        state["messages"].append(AIMessage(content=f"Editor 正在审核内容。"))
        print(f"--- Editor 审核内容完成。---")
    
    # 作为一个兜底节点，这里可以决定是结束还是回到Planner重新规划
    # 为了演示，我们让它结束
    return state

# 构建 LangGraph
workflow = StateGraph(AgentState)

# 添加节点
workflow.add_node("planner", planner_node)
workflow.add_node("researcher", researcher_node)
workflow.add_node("writer", writer_node)
workflow.add_node("editor", editor_node) # 兜底节点

# 设置入口
workflow.set_entry_point("planner")

# 添加边
workflow.add_edge("planner", "researcher") # Planner 完成后到 Researcher

# Researcher 节点后的条件路由
workflow.add_conditional_edges(
    "researcher", # 从 researcher 节点出来
    decide_next_step, # 使用这个函数来决定下一步
    {
        "writer": "writer",       # 如果决策函数返回 "writer"，则到 writer 节点
        "researcher": "researcher", # 如果决策函数返回 "researcher"，则回到 researcher 节点 (重试)
        "editor": "editor"        # 如果决策函数返回 "editor"，则到 editor 节点 (兜底)
    }
)

# Writer 节点完成后到 Editor
workflow.add_edge("writer", "editor")

# Editor 节点完成后结束
workflow.add_edge("editor", END)

# 编译 Graph
app = workflow.compile()

print("--- LangGraph 编译完成，开始运行 ---")

# --- 运行 Graph 示例 ---
# 示例 1: 正常流程 (假设爬虫一次成功)
print("\n===== 示例 1: 爬虫一次成功 =====")
initial_state_1 = {
    "messages": [HumanMessage(content="请帮我写一篇关于 LangGraph 异常处理的文章。")],
    "current_topic": "LangGraph 异常处理",
    "url_to_scrape": "http://example.com/langgraph-error-handling",
    "scrape_attempts": 0,
    "error_message": "",
    "status": ""
}
for s in app.stream(initial_state_1):
    print(s)
    print("---")

# 示例 2: 爬虫失败并重试，最终成功 (假设在 MAX_RETRIES 内成功)
print("\n===== 示例 2: 爬虫失败并重试，最终成功 =====")
# 我们可以通过修改 scrape_web_tool 的内部逻辑来模拟这个场景
# 或者，更直接地，让它在某个特定尝试次数后成功。
# 这里我们假设 scrape_web_tool 第一次和第二次失败，第三次成功。
# 为了演示，我们让 scrape_web_tool 更容易失败，并观察重试。
# 注意：由于 scrape_web_tool 是随机的，可能不会每次都按预期失败2次再成功，
# 但你会看到重试的逻辑被触发。
initial_state_2 = {
    "messages": [HumanMessage(content="请帮我写一篇关于 LangGraph 健壮性的文章。")],
    "current_topic": "LangGraph 健壮性",
    "url_to_scrape": "http://example.com/langgraph-robustness", # 这个URL会随机失败
    "scrape_attempts": 0,
    "error_message": "",
    "status": ""
}
for s in app.stream(initial_state_2):
    print(s)
    print("---")

# 示例 3: 爬虫多次失败，最终达到最大重试次数，转到 Editor 兜底
print("\n===== 示例 3: 爬虫多次失败，最终转 Editor 兜底 =====")
initial_state_3 = {
    "messages": [HumanMessage(content="请帮我写一篇关于一个非常难爬的网站的文章。")],
    "current_topic": "难以爬取的网站",
    "url_to_scrape": "http://problematic-site.com/data", # 这个URL被设置为更容易失败
    "scrape_attempts": 0,
    "error_message": "",
    "status": ""
}
for s in app.stream(initial_state_3):
    print(s)
    print("---")

# 打印最终状态
# print("\n--- 最终状态示例 1 ---")
# print(app.invoke(initial_state_1))
# print("\n--- 最终状态示例 2 ---")
# print(app.invoke(initial_state_2))
# print("\n--- 最终状态示例 3 ---")
# print(app.invoke(initial_state_3))

代码解析：

AgentState 扩展：我们引入了 scrape_attempts（记录爬取尝试次数）、error_message（存放具体的错误信息）和 status（标记当前节点执行结果：SUCCESS 或 FAILED）。这些字段是实现智能路由的关键。
scrape_web_tool 模拟：这个工具函数是本期的核心模拟对象。它通过 random.random() < fail_threshold 来模拟失败。在实际项目中，这里会是你的真实爬虫库调用，并用 try-except 捕获其可能抛出的异常。我们还特意设置了一个 http://problematic-site.com/data，让它更容易失败，方便测试最大重试次数的场景。
researcher_node 重构：
- 在进入节点时，scrape_attempts 会递增，error_message 会被清空，准备新的尝试。
- try-except 块包裹了 scrape_web_tool.invoke() 调用。这是异常捕获的核心。
- 如果 try 块成功，scraped_content 和 status="SUCCESS" 会被更新。
- 如果 except 块被触发，说明爬虫失败，error_message 会记录异常信息，scraped_content 清空，status="FAILED"。
- 关键点：无论成功失败，节点函数都不会抛出异常，而是将结果（包括错误信息）编码到 state 中返回。
decide_next_step 函数：这是我们的“智能路由器”。它接收当前的 state，根据 state["status"] 和 state["scrape_attempts"] 来决定返回 "writer" (成功)、"researcher" (重试) 或 "editor" (兜底)。MAX_RETRIES 常量控制了重试的上限。
Graph 构建：
- 我们使用 workflow.add_conditional_edges("researcher", decide_next_step, {...}) 将 researcher 节点的输出与 decide_next_step 函数关联起来。
- 这个字典 {...} 定义了 decide_next_step 返回值对应的下一个节点名称。
- "researcher": "researcher" 这一行是实现重试的关键，它将流程重新导向 researcher 节点。
- "editor": "editor" 则是重试失败后的兜底路径。
运行示例：提供了三个示例，分别演示了：
- 爬虫一次成功，流程顺畅。
- 爬虫失败后重试，最终成功。
- 爬虫多次失败，达到重试上限，最终转向 Editor 节点进行兜底处理。

通过运行这段代码，你会清晰地看到 LangGraph 如何在面对工具异常时，不再是硬生生的中断，而是灵活地根据状态进行决策，实现重试和优雅降级。这让我们的 AI 内容机构变得更加健壮和智能！

坑与避坑指南

异常处理是一个深奥的领域，在 LangGraph 这种状态机驱动的多智能体系统中，更是有一些独特的“坑”需要我们提前预知和规避。

过度捕获与静默失败（Silent Failure）
- 坑：为了避免 Graph 崩溃，你可能会倾向于在 try-except 中捕获所有 Exception，然后仅仅打印一个日志，而不更新 state 或采取任何进一步行动。这会导致问题“静默”地发生，Graph 表面上在运行，但内部已经出错了，导致后续 Agent 拿到错误或空数据。
- 避坑指南：
  - 精确捕获：尽量捕获特定类型的异常（如 requests.exceptions.ConnectionError, Timeout 等），而不是泛泛的 Exception。
  - 记录并更新状态：无论捕获到什么异常，都必须在 state 中明确标记失败状态（status="FAILED"）和详细错误信息（error_message）。这使得后续节点和 Conditional Edge 能够感知到问题并做出决策。
  - 日志级别：至少将错误信息以 ERROR 级别记录到日志中，方便后期排查。
状态污染与不一致（State Contamination & Inconsistency）
- 坑：当异常发生时，如果 state 中的某些字段没有被正确清空或重置，可能会导致后续 Agent 拿到“脏数据”。例如，爬虫失败了，但 scraped_content 字段仍然保留了上次成功爬取的内容，Writer Agent 就会基于错误的内容进行创作。
- 避坑指南：
  - 明确重置：在异常捕获分支中，明确将与失败操作相关的 state 字段（如 scraped_content, url_to_scrape 等）清空或设置为

← 上一课时 lesson-09

下一课时 → lesson-10