第 20 期 | 未来展望:从个人助手到自治组织

更新于 2026/4/15

好的,作为技术教育专家,我将为你撰写 Hermes Agent 教程的第 20 期文章。本文将深入探讨 AI Agent 的未来发展,并为你规划相应的技术职业路线。


未来展望:从个人助手到自治组织

副标题:从辅助级(Copilot)到完全自治代办(Agentic)的发展蓝图。梳理技术演进,帮助你规划技术职业路线图。


学习目标

在本期教程中,你将深入理解 AI Agent 的演进路径,并为未来的技术浪潮做好准备。完成本章后,你将能够:

  1. 理解 AI Agent 的五个自治级别:清晰地定义从 Copilot 到完全自治系统的演进阶段。
  2. 区分 Copilot 与 Agentic 的核心差异:理解从“工具”到“自主工作者”的范式转变。
  3. 掌握实现更高阶 Agent 的核心技术:了解实现规划 (Planning)、工具使用 (Tool Use) 和自我修正 (Self-Correction) 的关键技术。
  4. 展望多智能体系统 (Multi-Agent Systems):探索多个 Agent 协作完成复杂任务的架构和挑战。
  5. 规划职业发展路径:根据技术演进蓝图,定位自己的技能栈,并规划未来的职业发展方向。

核心概念讲解

经过前面 19 期的学习,你已经掌握了构建一个功能强大的个人 AI 助手——Hermes Agent 的各项核心技术,包括模型集成、技能扩展、记忆系统和消息网关。我们当前构建的 Hermes Agent,在行业内可以被归类为一个先进的 Proactive Copilot (主动式副驾)

然而,这仅仅是 AI Agent 发展的序章。真正的变革在于从“辅助”人类到“代表”人类执行任务的跨越。为了更好地理解这一宏大叙事,我们借鉴自动驾驶的等级划分,将 AI Agent 的发展划分为五个级别。

Level 1: 反应式助手 (Reactive Assistant)

这是最基础的形态,其核心是“一问一答”。系统根据用户的明确指令做出反应,不具备上下文记忆和主动性。

  • 技术核心:
    • 基础的大语言模型 (LLM) 调用。
    • 简单的 Prompt Engineering。
    • 可选的 RAG (Retrieval-Augmented Generation) 用于提供特定知识库的问答。
  • 典型应用: 早期智能客服、基于模板的聊天机器人、无状态的 API 调用工具。
  • 与 Hermes Agent 的关系: 第 1、2 期教程中,一个只配置了 Provider 和基础 Prompt 的 Hermes Agent 就处于这个级别。

Level 2: 主动式副驾 (Proactive Copilot)

这是我们目前通过 Hermes Agent 系列教程重点构建的级别。系统具备了跨会话的记忆,能够理解上下文,并基于用户画像提供更具个性化和前瞻性的建议。

  • 技术核心:
    • 持久化记忆 (Memory): 如我们在第 4 期中实现的 VectorStore 和用户画像。
    • 技能系统 (Skills): 系统能够调用外部工具 (APIs, 本地脚本) 来完成特定任务,如第 3 期的 Skill 系统。
    • 上下文管理 (Context Management): 在 Prompt 中有效地注入历史对话、用户信息和当前环境。
  • 典型应用: GitHub Copilot、集成了你个人知识库的 Hermes Agent、能够帮你管理日程的智能助手。
  • 关键特征: 它依然是一个“工具”,一个强大的“副驾驶”。决策权和任务发起的最终控制权仍在用户手中。

Level 3: 委派级代办 (Delegated Agentic Workflow)

这是从 Copilot 到 Agentic 的质变点。用户不再下达具体指令,而是委派一个高层目标 (High-level Goal)。Agent 自行将目标分解为一系列步骤,并自主执行。

  • 技术核心 - Agentic 三要素:
    1. 规划 (Planning): Agent 需要一个“大脑”来制定计划。它需要将模糊的目标(如“帮我调研一下最近 AI Agent 的技术趋势并写一份报告”)分解为具体的可执行步骤(1. 搜索关键词;2. 筛选相关论文和博客;3. 阅读并总结要点;4. 组织内容并生成报告)。
      • 代表性框架: ReAct (Reason and Act)。该框架让 LLM 在每一步都进行“思考”(Reasoning),然后决定下一步的“行动”(Action),这个行动通常是调用一个工具。
    2. 工具使用 (Tool Use): Agent 必须能熟练、连续地调用多个工具来执行计划。这不仅仅是调用一个 API,而是将多个工具的输出作为后续工具的输入,形成一条工具链。
    3. 自我修正 (Self-Correction): 在执行过程中,Agent 必须能够评估每一步的结果。如果某个工具调用失败,或者返回的结果不符合预期,它需要能够分析失败原因,并调整计划。例如,如果搜索结果不佳,它可能会尝试更换关键词重新搜索。
  • 典型应用: Auto-GPT, BabyAGI, 以及我们将在实战演示中构建的雏形。
  • 关键特征: 用户从“驾驶员”变为“乘客”,只需设定目的地。Agent 拥有了任务执行的自主权,但通常仍在沙箱环境中运行,并需要最终的人类审批。

Level 4: 协作级智能体 (Collaborative Agents)

当单个 Agent 的能力达到瓶颈时,下一个演进方向就是构建多智能体系统 (Multi-Agent Systems, MAS)。系统由多个具备不同角色和专长的 Agent 组成,它们通过协作来完成远超单个 Agent 能力的复杂目标。

  • 技术核心:
    • Agent 通信协议 (Agent Communication Language, ACL): Agent 之间需要一种标准化的语言来沟通,例如 FIPA-ACL,用于交换信息、提出请求、协商和达成共识。
    • 组织架构与角色分配: 如何设计 Agent 团队的结构?是扁平化的,还是层级化的(如一个“经理”Agent 给“员工”Agent 分配任务)?
    • 协调与冲突解决: 当多个 Agent 的行为产生冲突时(例如,两个 Agent 都想使用同一个有限的资源),系统需要机制来协调和解决。
  • 典型应用:
    • 模拟软件开发团队: 一个“产品经理 Agent”负责需求分析,一个“程序员 Agent”负责编写代码,一个“测试工程师 Agent”负责编写和执行测试用例。
    • 自动化科学研究: 一个 Agent 负责提出假设,一个 Agent 负责设计实验,另一个 Agent 负责分析数据。
  • 代表性框架: CrewAI, MetaGPT。

Level 5: 自治组织 (Autonomous Organization)

这是 Agent 发展的终极形态,也最具科幻色彩。一个由 AI Agent 组成的去中心化自治组织 (Decentralized Autonomous Organization, DAO),它能够自我维持、自我进化,甚至拥有自己的资源和目标。

  • 技术核心:
    • 区块链与智能合约: 用于保证规则的透明执行、资产的所有权和交易的不可篡改。Agent 的决策和组织的治理规则可以被编码在智能合约中。
    • 经济模型 (Tokenomics): 设计激励机制,让 Agent 的行为与整个组织的目标保持一致。Agent 的贡献可以通过代币 (Token) 来量化和奖励。
    • 去中心化治理: 组织的决策不再由中心化的实体做出,而是由所有 Agent(或其代表)通过投票等方式共同决定。
  • 典型应用 (理论上): 一个完全自动化的投资公司,由多个分析师 Agent、交易 Agent 和风险控制 Agent 组成,其利润用于支付计算资源并自我扩张;一个自我维护和迭代的开源软件项目。
  • 关键特征: 高度自治,极少甚至无需人类干预,具备独立的“法人”地位。

💻 实战演示: 打造一个 Level 3 Agentic Workflow 雏形

我们将通过改造 Hermes Agent 的 Skill 系统,来模拟一个 Level 3 Agent 的核心工作流:规划 -> 工具调用 -> 结果整合

目标: 创建一个 ResearchAndReportSkill。当用户发出指令:“请调研‘多智能体系统 (Multi-Agent Systems)’的最新进展,并生成一份 markdown 格式的报告。” 该 Skill 将自主完成以下步骤:

  1. 规划: 确定需要进行网络搜索和文件写入。
  2. 执行:
    • 调用 WebSearchSkill 进行搜索。
    • 调用 FileSystemSkill 将结果写入文件。
  3. 响应: 告知用户报告已生成。

前提: 假设你的 Hermes Agent 中已经存在 WebSearchSkill (用于网络搜索) 和 FileSystemSkill (用于读写文件)。这些是标准的 Agent 工具。

第一步:创建新的 Skill 文件

我们来创建一个新的 Skill,它将扮演“编排者”或“主 Agent”的角色。

# 确保你在 Hermes Agent 项目的根目录下
mkdir -p src/hermes/skills/orchestration
touch src/hermes/skills/orchestration/research_skill.py

第二步:编写 ResearchAndReportSkill 代码

打开 src/hermes/skills/orchestration/research_skill.py 并粘贴以下代码。请仔细阅读注释,理解其内部逻辑。

# src/hermes/skills/orchestration/research_skill.py

from hermes.skills.base import Skill
from hermes.kernel import Kernel
import logging
import json

logger = logging.getLogger(__name__)

class ResearchAndReportSkill(Skill):
    """
    A Level 3 Agentic Skill that orchestrates other skills to perform research and generate a report.
    It demonstrates the core workflow: Planning -> Tool Use -> Synthesis.
    """
    
    name = "ResearchAndReportSkill"
    description = "Performs online research on a given topic and saves the findings into a markdown report. Usage: {\"topic\": \"your research topic\"}"

    def __init__(self, kernel: Kernel):
        super().__init__(kernel)
        # This skill needs access to other skills via the kernel
        self.kernel = kernel

    async def perform(self, **kwargs) -> str:
        """
        Executes the research and report generation workflow.
        """
        topic = kwargs.get("topic")
        if not topic:
            return "Error: 'topic' is a required argument."

        logger.info(f"Starting agentic workflow for topic: {topic}")

        # --- 1. Planning Phase (Implicitly defined in this code) ---
        # The plan is: 
        #   a. Search the web for the topic.
        #   b. Synthesize the results.
        #   c. Write the synthesis to a file.
        plan = [
            f"1. Search the web for information about '{topic}'.",
            "2. Analyze search results and synthesize a summary.",
            "3. Write the summary to a markdown file."
        ]
        logger.info(f"Generated Plan:\n" + "\n".join(plan))

        # --- 2. Tool Use / Execution Phase ---
        try:
            # Step a: Call WebSearchSkill
            logger.info("Executing step 1: Calling WebSearchSkill...")
            search_query = f"latest advancements in {topic}"
            search_result_str = await self.kernel.invoke(
                skill_name="WebSearchSkill", 
                action="search", 
                query=search_query,
                limit=5 # Get top 5 results
            )
            
            # The result from another skill might be a JSON string, parse it
            search_results = json.loads(search_result_str)
            logger.info(f"Received {len(search_results)} results from web search.")

            # Step b: Synthesize the results (for this demo, we'll do a simple formatting)
            logger.info("Executing step 2: Synthesizing results...")
            report_content = f"# Research Report: {topic}\n\n"
            report_content += "## Executive Summary\n"
            report_content += f"This report summarizes the latest findings on the topic of '{topic}', based on automated web research.\n\n"
            report_content += "## Key Findings\n\n"

            if not search_results:
                report_content += "No relevant information found.\n"
            else:
                for i, result in enumerate(search_results):
                    report_content += f"### {i+1}. {result.get('title', 'N/A')}\n"
                    report_content += f"- **Source**: [{result.get('link', 'N/A')}]({result.get('link', 'N/A')})\n"
                    report_content += f"- **Snippet**: {result.get('snippet', 'N/A')}\n\n"
            
            synthesis_complete = True

        except Exception as e:
            logger.error(f"Error during web search or synthesis: {e}")
            # --- 3. Self-Correction (Rudimentary) ---
            # A more advanced agent would analyze the error and retry with a different plan.
            # For now, we just report the failure.
            return f"Agentic workflow failed at search/synthesis step. Error: {e}"

        # Step c: Call FileSystemSkill to write the report
        if synthesis_complete:
            try:
                logger.info("Executing step 3: Calling FileSystemSkill to write report...")
                file_name = f"{topic.replace(' ', '_').lower()}_report.md"
                await self.kernel.invoke(
                    skill_name="FileSystemSkill",
                    action="write",
                    path=file_name,
                    content=report_content
                )
                logger.info(f"Successfully wrote report to {file_name}")
                return f"Successfully completed the research. Report saved as '{file_name}'."
            except Exception as e:
                logger.error(f"Error during file writing: {e}")
                return f"Agentic workflow failed at file writing step. Error: {e}"
        
        return "Agentic workflow finished with unexpected state."

代码解析:

  1. Orchestrator Role: 这个 Skill 不执行底层的 I/O 操作。它的核心职责是调用其他专用的 Skills (WebSearchSkill, FileSystemSkill)。
  2. Kernel Access: 通过 self.kernel.invoke(...),一个 Skill 可以调用系统内注册的任何其他 Skill。这是实现 Agentic Workflow 的关键机制。
  3. Implicit Planning: 在这个简单的例子中,计划是硬编码在 perform 方法中的。一个更高级的 Agent 会使用 LLM 在运行时动态生成这个计划。
  4. State Management: 变量 synthesis_complete 用于在步骤之间传递状态,决定后续操作是否执行。
  5. Rudimentary Self-Correction: try...except 块是自我修正的最基本形式。它捕获错误并报告失败,为更复杂的重试或计划调整逻辑提供了入口。

第三步:在 Hermes Agent 中运行

  1. 确保你的 Hermes Agent 配置加载了 ResearchAndReportSkill 以及它依赖的 WebSearchSkillFileSystemSkill
  2. 启动 Hermes Agent。
  3. 通过你选择的消息网关(如 Telegram 或本地终端)向 Agent 发送指令。注意,你需要使用类似 JSON 的格式来调用这个 Skill,因为它需要一个明确的 topic 参数。

用户输入:

/skill ResearchAndReportSkill {"topic": "Multi-Agent Systems"}

Agent 的预期输出 (日志):

INFO: Starting agentic workflow for topic: Multi-Agent Systems
INFO: Generated Plan:
1. Search the web for information about 'Multi-Agent Systems'.
2. Analyze search results and synthesize a summary.
3. Write the summary to a markdown file.
INFO: Executing step 1: Calling WebSearchSkill...
INFO: Received 5 results from web search.
INFO: Executing step 2: Synthesizing results...
INFO: Executing step 3: Calling FileSystemSkill to write report...
INFO: Successfully wrote report to multi-agent_systems_report.md

Agent 的最终响应 (给用户):

Successfully completed the research. Report saved as 'multi-agent_systems_report.md'.

现在,你可以在 Hermes Agent 的工作目录下找到一个名为 multi-agent_systems_report.md 的文件,其中包含了网络搜索的结果。这个简单的演示,已经清晰地展示了从 Level 2 到 Level 3 的核心飞跃:Agent 不再仅仅是执行命令,而是在执行一个自主的、多步骤的内部工作流


技术演进与职业路线图

理解了 Agent 的演进级别,你就可以更有针对性地规划自己的技术职业路线。

自治级别 核心技术栈 关键技能要求 对应职业角色
L1/L2 LLM API, Prompt Engineering, RAG, Vector Databases, Python/Node.js 应用开发, API 集成, 数据处理, 基础的 AI 安全知识 AI 应用工程师, 后端工程师 (AI 方向)
L3 Planning Algorithms (ReAct, CoT), Agentic Frameworks (LangChain), Tool Creation, State Management 系统设计, 工作流编排, 复杂问题分解, 错误处理与鲁棒性设计 Agentic Workflow 工程师, AI 自动化专家
L4 MAS Frameworks (CrewAI), Agent Communication Protocols (ACL), Distributed Systems, Consensus Algorithms AI 系统架构设计, 协议设计, 仿真与测试, 博弈论基础, 资源调度 多智能体系统架构师, AI 研究员
L5 Blockchain, Smart Contracts (Solidity), Tokenomics, Decentralized Governance, Cryptography 去中心化系统设计, 经济模型设计, 安全审计, 跨学科知识 (经济学, 社会学) 去中心化 AI 架构师, Web3 工程师 (AI 交叉)

给你的建议:

  • 夯实基础 (L1/L2): 精通 Hermes Agent 这类框架的开发是基础。熟练构建稳定的、有记忆、会使用工具的 Copilot 是进入该领域的门票。
  • 进阶 Agentic (L3): 深入研究 ReAct 等规划模式,学习如何将复杂业务流程抽象为 Agentic Workflow。这是当前市场需求最旺盛、商业价值最直接的领域。
  • 布局未来 (L4/L5): 关注 CrewAI 等多智能体框架,了解它们如何解决 Agent 间的通信和协作问题。如果你对底层协议和经济模型感兴趣,可以开始学习区块链和智能合约知识。这虽然是更长远的方向,但提前布局会让你在下一波技术浪潮中占据先机。

涉及命令

  • mkdir -p src/hermes/skills/orchestration: 创建用于存放编排类 Skill 的目录。
  • touch src/hermes/skills/orchestration/research_skill.py: 创建 Skill 的 Python 文件。
  • hermes-agent run (或类似的启动命令): 启动 Hermes Agent 以加载并运行新的 Skill。

要点回顾

  1. Agent 的演进是自主性的提升: 从被动响应 (L1),到主动辅助 (L2),再到自主执行 (L3),协作共生 (L4),最终实现完全自治 (L5)。
  2. L3 是关键转折点: Agentic 系统的核心在于规划、工具使用、自我修正。我们的实战演示通过一个编排型 Skill 模拟了这一过程。
  3. kernel.invoke 是粘合剂: 在 Hermes Agent 的架构中,允许 Skill 之间相互调用是实现复杂工作流的基础。
  4. 多智能体是规模化的必然: 解决复杂问题需要不同专长的 Agent 进行协作,这引入了通信、协调和组织结构的新挑战。
  5. 职业发展与技术演进同步: 你的技能栈需要从应用层开发,逐步向工作流设计、系统架构,乃至经济模型和去中心化治理演进。

参考资料

  1. ReAct Framework Paper: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022) - 了解 Agentic 规划核心思想的必读论文。
  2. CrewAI Documentation: CrewAI GitHub Repository - 一个优秀的开源框架,用于实践和理解多智能体协作。
  3. LangChain Agents: LangChain Agent Documentation - 提供了丰富的 Agentic Workflow 构建工具和示例。
  4. A Survey on Multi-Agent Systems: 搜索相关学术综述,可以帮助你系统地了解 MAS 的历史、挑战和前沿方向。

这是 Hermes Agent 教程的第 20 期,也是一个阶段性的总结与展望。我们从构建一个简单的个人助手开始,一步步走到了探索自治组织的宏大未来。希望这趟旅程不仅让你掌握了技术,更激发了你对 AI Agent 无限潜力的想象。继续探索,继续构建,未来在你手中。