第 17 期：Q&A (二) 权限控制与自动化排障 — 🤝 Claude Code Teams 实战：多 Agent 并行开发深度指南

本期场景：引入并行能力后，系统的不可控性直线上升。本期解答死循环、命令阻塞、CI/CD 自动化集成等保障 Teams 模式稳定运行的硬核故障排查问题。

Q8：【Mermaid 故障树】死循环跳出 (Recursive Loop)

问：为什么我的 Sub-Agent 会陷入“反复执行错误 Bash 命令然后反复道歉”的死循环？如何打破？

答：这是 LLM Agent 的通病，通常是因为上下文窗口被重复的错误堆栈填满，导致其丧失了寻找新方案的“视界”。

graph TD
    Start(检测到 Agent 陷入重试循环) --> A{连续出错超过 3 次?}
    A -->|是| B[Team Lead 发送干预消息]
    
    B --> C{是否涉及包管理依赖?}
    C -->|是| C1[指令强制其降级工具版本或清空缓存]
    C -->|否| D{是否为语法/编译错误?}
    
    D -->|是| D1[指令停止修改, 强制调用 search 查找历史解决方案]
    D -->|否| E[终止该 Agent，重新 Spawn 并剥夺引发错误的工具权限]

    style Start fill:#f43f5e,color:#fff
    style E fill:#10b981,color:#fff

硬核熔断机制：为 Agent 配置 max_retries 或监控 Bash 返回的 exit code，连续 3 次非零返回即触发 TaskUpdate({ status: "blocked" })，将球踢回给人类或高级 Agent 决策，不要任其烧钱尝试。

Q9：粒度权限控制 (Granular Permissions)

问：如何为不同角色的 Agent 设置不同的文件读写权限（例如：禁止 Tester 角色修改 src/ 下的核心代码）？

答：Claude Code 原生并未提供路径级的读写锁控制，你需要结合系统级命令拦截：

在设置项目的 .claude/settings.json 时，通过自定义 Hook 拦截并正则校验命令路径。例如拦截 Edit 工具的参数，如果它是由名为 qa-engineer 的进程发起的，并且文件路径匹配 ^src/，Hook 脚本直接返回非零错误退出，强制阻断修改。

Q10：阻塞命令卡死 (Blocking Commands)

问：当某个 Agent 执行 Bash 命令被阻塞卡住（比如 npm init 等待输入 Y/n）时，整个并行流水线会夯死吗？如何预防？

答：该阻塞会导致执行此命令的 Sub-Agent 永远停滞，但不会立刻夯死其他完全并行的 Agent。然而，如果其他 Agent 有 blockedBy 依赖它，整个产线最终会陷入死锁。

预防法则：

强制非交互模式：在 CLAUDE.md 中强调：“所有安装或脚本必须附加非交互参数（如 npm install -y, git clean -f 等）。”
Hook 层前置替换：在 PreToolUse(Bash) 钩子中，检测如果命令包含高风险的交互式 CLI 关键字，在底层直接向后附加 --yes 标志或强制前置 DEBIAN_FRONTEND=noninteractive 环境变量。

Q11：CI/CD 自动化集成 (CI/CD Integration)

问：如何让 Teams 模式下的 Agents 无缝集成到 GitHub Actions 等 CI/CD 中，并在纯 Headless 模式下安全运行？

答：需要在无头环境下提供三个关键支撑：

终端模拟 (PTY)：CI 必须支持模拟真实的 TTY（可以使用 node-pty 或类似容器），因为有些 Agent 工具底层依赖伪终端输出。
无人工干预旗标：启动时加上 --yes 或预配置所有必要权限。
输出导出：由于 CI 里你无法交互，Team Lead 必须被编程为“在任务 100% 结束或发生全量崩溃时，将最终结果写入 output/final_report.md，并在 CI 步骤末尾打印此文件并 exit 0 或 exit 1。

Q12：超时调优 (Timeout Tuning)

问：为什么有时复杂的编译任务会报 "Tool Execution Timeout"？如何针对特定 Sub-Agent 调整超时参数？

答：因为 Claude Code 对工具调用（如 Bash）默认设有最大等待时间防呆机制，一旦编译时间超限就会被强制杀掉。

调优建议：

避免让 Agent 用 Bash 跑动辄几十分钟的 E2E 测试。
将长耗时任务转变为后台任务。告诉 Agent 执行 npm run build > build.log 2>&1 &（将其推入后台），然后让 Agent 在下一步执行轮询任务去检查 build.log 寻找 "Compiled successfully" 字样，从而彻底规避工具超时。

Q13：双向反馈循环 (Feedback Loop Design)

问：如果负责测试的 Agent (qa-engineer) 发现了 Bug，它是应该直接越权修改代码，还是应该把错误堆栈包装成消息退回给开发 Agent？

答：这取决于你的容忍度和系统复杂度。

推荐方案：职责分离 + 退回重做。 qa-engineer 应当保持“只读与测试”的纯洁性。它发现错误堆栈后，应执行 SendMessage 给 Team Lead： "测试套件失败，问题出在模块 X。这是错误日志 [...]，请分配重写任务。"

Team Lead 收到消息后，会重新激活 logic-dev 派发修复任务。这能避免“外行领导瞎改内行代码”导致的架构崩塌。

Q14：预算熔断机制 (Budget Limits)

问：能否限制某个“初级 Agent”的 Token 使用上限或最大思考步数，防止它在失败时烧光 API 余额？

答：可以通过**代理网关（API Gateway）**或者 Hook 级拦截 来实现。

更原生的方式是在 CLAUDE.md 结合 PostToolUse 钩子设计内部计步器：每次 Agent 发起 Bash 或 Write 动作，Hook 会将本地计步器 +1。如果计步器超过 15 步（说明陷入了盲目重试或设计错误），Hook 脚本会在该次调用的返回值中强制插入： "CRITICAL WARNING: 你的执行步数已达上限，强制立即停止操作，向 Team Lead 汇报失败原因。" 这将逼迫模型退出当前死循环。