lesson-24

17 分钟阅读 | 更新于：2026-05-07

同学们好，欢迎回到我们的《LangGraph 多智能体专家课》。我是你们的老朋友。

在前面的 23 期里，我们的「AI 万能内容创作机构 (AI Content Agency)」已经初具规模了。Planner 挥斥方遒规划选题，Researcher 像个不知疲倦的猎犬一样全网搜集资料，Writer 奋笔疾书，Editor 铁面无私地进行审校。看着满屏跑通的绿灯，你是不是觉得自己的架构已经天下无敌了？

别天真了，欢迎来到真实的生产环境。

在真实的业务线里，大模型 API 就像薛定谔的猫——在你发起请求之前，你永远不知道它会秒回，还是会让你等到海枯石烂，最后无情地抛出一个 TimeoutError 或者 502 Bad Gateway。想象一下，你的 Researcher 辛辛苦苦爬了 10 万字的资料，丢给 Writer 节点。Writer 节点调用了最顶配的 GPT-4o 或者 Claude-3.5-Sonnet 准备生成一篇深度长文。结果，因为网络抖动或者 OpenAI 算力告急，请求卡死了。30 秒后，整个 LangGraph 工作流崩溃，之前的所有计算成本和时间全部打水漂。

老板看着白屏的系统，问你：“这就是你写的智能体架构？”

为了保住大家的年终奖，今天这节课，我们就来解决这个极其致命的工程痛点：如何为 Node 设定超时销毁规则，并在失败时自动降级（Fallback）到更轻量级的模型，保证整个 Agency 的工作流「降级但绝不宕机」。

🎯 本期学习目标

理解超时的爆炸半径：明白为什么在 Multi-Agent 架构中，单节点的超时会导致雪崩效应。
掌握底层 Timeout 机制：学会在 LLM 层面和 LangGraph Node 层面设置严格的执行时间上限（Fail-Fast 原则）。
实现大模型降维重试 (Fallback)：使用 LangChain 的 with_fallbacks 语法，构建“主力模型 -> 备用模型 -> 兜底方案”的三级火箭架构。
Agency 业务实操：将防超时策略完美融入我们的 Writer Agent，让它在极端网络下依然能产出初稿。

📖 原理解析

在分布式系统里有一个金科玉律：Design for Failure（为失败而设计）。我们的 AI Content Agency 本质上就是一个由多个大模型 API 节点组成的分布式微服务系统。

1. 为什么要主动设置 Timeout？

很多新手写代码，调用大模型时从不传 timeout 参数。这就意味着，如果 API 服务商那边发生阻塞，你的线程就会一直挂起。在并发场景下，这会迅速耗尽你服务器的连接池，导致整个系统假死。 高级架构师的做法是：Fail-Fast（快速失败）。 如果 Writer 节点 15 秒内写不出初稿，就立刻掐断连接，不要死等。

2. 什么是降维重试 (Fallback)？

掐断连接后怎么办？直接报错吗？当然不行。在我们的 Agency 里，Writer 节点的主力是“资深作家”（比如 GPT-4o，聪明但慢且贵）。如果资深作家今天“请病假”（超时/宕机），我们就必须立刻拉一个“实习生”（比如 GPT-4o-mini 或 Claude-3-Haiku，稍微笨点但极快且便宜）来顶上。虽然实习生写的初稿质量可能稍差，但后续还有 Editor 节点可以兜底修改。在业务上，有结果（哪怕是 60 分的结果）永远好过抛异常（0 分）。

下面是我们本期 Writer 节点重构后的核心工作流走向：

graph TD
    A[Researcher 搜集完资料] -->|传递 State| B[Writer Node 开始执行]
    
    subgraph "Writer Node 内部容错防线"
        B --> C{调用 主力大模型 GPT-4o}
        C -- 成功 (10秒内) --> D[返回高质量 90分初稿]
        
        C -- 失败 (Timeout/RateLimit/500) --> E[🔥 触发 Fallback 机制]
        
        E --> F{调用 降维大模型 GPT-4o-mini}
        F -- 成功 (15秒内) --> G[返回降级 60分初稿]
        
        F -- 失败 (再次异常) --> H[🛡️ 触发最终兜底逻辑]
        H --> I[返回系统预设的默认错误文案]
    end
    
    D --> J[流转至 Editor Node]
    G --> J
    I --> J
    
    style C fill:#f9f,stroke:#333,stroke-width:2px
    style E fill:#ff9999,stroke:#333,stroke-width:2px
    style F fill:#bbf,stroke:#333,stroke-width:2px

💻 实战代码演练

为了让大家看得最清楚，我们将直接抽离出 Writer 节点的逻辑进行重构。

👨‍🏫 讲师 Trick 预警：在下面的演示代码中，为了强制触发 Timeout 让我们看到 Fallback 的效果，我故意把主力模型 GPT-4o 的超时时间设置成了极其变态的 0.01 秒。这样它一定会超时失败，从而优雅地降级到 GPT-4o-mini。

核心环境与依赖

请确保你的环境中安装了以下库： pip install langgraph langchain-openai langchain-core

完整演示代码

import time
from typing import TypedDict, Annotated
from langgraph.graph import StateGraph, END
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, AIMessage
from langchain_core.runnables import RunnableConfig

# ==========================================
# 1. 定义 Agency 的全局状态 (State)
# ==========================================
class AgencyState(TypedDict):
    topic: str
    draft: str
    model_used: str # 用于记录最终到底是哪个模型产出的内容，方便监控

# ==========================================
# 2. 核心：构建带有降维重试机制的 LLM 链
# ==========================================
# 角色 A：资深作家 (主力模型)
# 我们故意设置 request_timeout=0.01，强制让它超时，模拟生产环境的 API 拥堵！
# 正常生产环境中，这里可能设置为 30.0 秒
senior_writer_llm = ChatOpenAI(
    model="gpt-4o",
    temperature=0.7,
    request_timeout=0.01, # ⚠️ 极短超时，逼迫其 Fail-Fast
    max_retries=0         # 禁用自带的无脑重试，我们用 fallback 接管
)

# 角色 B：实习生作家 (降级模型)
# 速度快，便宜，作为 Plan B。给它充裕的时间。
intern_writer_llm = ChatOpenAI(
    model="gpt-4o-mini",
    temperature=0.7,
    request_timeout=15.0, # 正常的超时时间
    max_retries=1
)

# 🚀 魔法发生在这里：使用 .with_fallbacks() 绑定降级策略
# 如果 senior_writer_llm 抛出异常（如 Timeout），自动无缝切换到 intern_writer_llm
robust_writer_llm = senior_writer_llm.with_fallbacks(
    fallbacks=[intern_writer_llm]
)

# ==========================================
# 3. 定义 Writer 节点 (Node)
# ==========================================
def writer_node(state: AgencyState, config: RunnableConfig):
    print("\n[Writer Node] 接收到写作任务，开始创作...")
    topic = state["topic"]
    
    prompt = f"你是一个专业的内容创作者。请为主题【{topic}】写一段200字的引言。"
    
    start_time = time.time()
    try:
        # 调用我们封装好的、带有防超时降级机制的 LLM
        # 即使主力超时，Fallback 也会在底层自动接管，对上层业务透明
        response: AIMessage = robust_writer_llm.invoke([HumanMessage(content=prompt)])
        
        # 提取使用的模型名称，验证降级是否成功
        # OpenAI 的 response.response_metadata 中会包含实际使用的 model
        actual_model = response.response_metadata.get("model_name", "unknown")
        
        cost_time = time.time() - start_time
        print(f"[Writer Node] 创作完成! 耗时: {cost_time:.2f}秒. 实际使用模型: {actual_model}")
        
        return {
            "draft": response.content,
            "model_used": actual_model
        }
        
    except Exception as e:
        # 终极兜底逻辑：如果连降级模型都挂了，或者网络彻底断了
        print(f"[Writer Node] 🚨 灾难性错误，所有模型均不可用: {e}")
        return {
            "draft": "【系统提示：AI 创作者集体罢工，请人类小编手动介入处理此选题。】",
            "model_used": "human_fallback"
        }

# ==========================================
# 4. 组装 LangGraph 工作流
# ==========================================
workflow = StateGraph(AgencyState)

workflow.add_node("writer", writer_node)
workflow.set_entry_point("writer")
workflow.add_edge("writer", END)

app = workflow.compile()

# ==========================================
# 5. 模拟运行 Demo
# ==========================================
if __name__ == "__main__":
    print("=== AI Content Agency 启动 ===")
    initial_state = {"topic": "2024年人工智能发展趋势", "draft": "", "model_used": ""}
    
    # 执行 Graph
    final_state = app.invoke(initial_state)
    
    print("\n=== 最终 State 结果 ===")
    print(f"主题: {final_state['topic']}")
    print(f"产出模型: {final_state['model_used']}  <-- 注意看这里！")
    print(f"草稿内容: {final_state['draft']}")

运行结果剖析

当你运行这段代码时，你会看到控制台输出类似如下的内容：

=== AI Content Agency 启动 ===

[Writer Node] 接收到写作任务，开始创作...
[Writer Node] 创作完成! 耗时: 2.15秒. 实际使用模型: gpt-4o-mini

=== 最终 State 结果 ===
主题: 2024年人工智能发展趋势
产出模型: gpt-4o-mini  <-- 注意看这里！
草稿内容: 2024年，人工智能的发展正以前所未有的速度重塑我们的世界...（省略）

看懂了吗同学们？这就是优雅！ 由于我们把 GPT-4o 的 request_timeout 设为了 0.01 秒，它必定触发 APITimeoutError。但是我们的 LangGraph 节点并没有崩溃！底层 with_fallbacks 捕获了异常，悄无声息地将 Prompt 转发给了 gpt-4o-mini，并在 2 秒后拿回了结果。整个工作流状态 (State) 被完美更新，可以继续流转给下游的 Editor。

坑与避坑指南

作为你们的导师，我不仅要教你们怎么写出能跑的代码，更要教你们怎么排查半夜把你们叫醒的 Bug。关于 Timeout 和 Fallback，有三个天坑：

💣 坑一：无限套娃的重试风暴 (Retry Storm)

现象：你设置了 Fallback，但发现系统依然卡死，甚至账单爆炸。原因：LangChain 的某些 LLM 封装默认带有 max_retries=2 或更高。如果你不显式关闭主力模型的重试（max_retries=0），它会在超时后，自己傻乎乎地再试 2 次（每次等很久），然后再抛出异常给 Fallback。避坑：在构建 Fallback 链时，主力模型一定要设置 max_retries=0。让它死得痛快点，赶紧把接力棒交给备用模型。

💣 坑二：状态污染 (State Corruption)

现象：模型降级成功了，但生成的格式完全不对，下游的 Editor 节点解析报错。原因：你可能在主力模型里用了复杂的 bind_tools 或结构化输出 (Structured Output)，但你在降级模型（比如一个开源的轻量模型）里忘记绑定同样的格式要求，导致它输出了纯文本。避坑：Fallback 数组中的每一个备用 LLM，都必须和主力 LLM 保持相同的接口契约。如果主力绑定了 JSON 输出，备用模型也必须绑定相同 Schema 的 JSON 输出。

💣 坑三：悄无声息的降级 (Silent Degradation)

现象：系统跑了三个月，你一直以为是 GPT-4o 在干活，月底看账单才发现全是 GPT-4o-mini 的费用。因为系统一直在静默降级，你完全不知道！原因：Fallback 机制对上层太透明了，掩盖了底层网络或账号限流的真实问题。避坑：像我在代码里演示的那样，必须将实际使用的模型名称写回 State 中（model_used 字段）。在真实的生产中，这里还应该加一行代码：向 Prometheus 或你的日志监控系统打一个 Warning 埋点记录降级事件。

📝 本期小结

今天我们为 AI Content Agency 的 Writer 节点穿上了一件“防弹衣”。

我们明确了 Fail-Fast 的架构理念，拒绝无意义的死等。
我们利用 LLM 级别的 request_timeout 结合 with_fallbacks，实现了主力模型到降维模型的无缝切换。
我们设计了终极兜底逻辑，确保即使所有大模型 API 都挂了，LangGraph 也能输出友好的提示并引导人工介入，而不是抛出一堆可怕的 Traceback 堆栈。

有了这套机制，你的 Multi-Agent 系统才算真正具备了走向生产环境的资格。它不再是一个脆弱的玩具，而是一个具备高可用性 (High Availability) 的工业级架构。

下期预告： 现在的 Agency 已经不怕超时了，但是，如果 Writer 生成的内容极其糟糕，Editor 看了想打人怎么办？在第 25 期《LangGraph 多智能体专家课》中，我们将引入人类在环 (Human-in-the-loop, HITL) 机制。我将教大家如何让 LangGraph 走到特定节点时自动暂停（Interrupt），发消息给人类主管（你）钉钉/企业微信审批，你点头同意后，工作流才继续往下走！

同学们，我们下期见！记得把这期代码敲一遍，体会一下强制超时的快感！

← 上一课时 lesson-23

下一课时 → lesson-25