第 9 课 — Parse 与 Agent:从本地文件到自主调研

⏱ 预计阅读 3 分钟 更新于 2026/5/7
💡 进群学习加 wx: agentupdate
(申请发送: agentupdate)

Firecrawl 不仅能处理在线网页,还能深度解析本地文档,甚至充当你的 AI 研究助手。

9.1 Parse:本地文件结构化解析

Parse 工具允许你将本地的非结构化文档直接转为 AI 可读的 Markdown 或结构化 JSON。

支持格式:

  • PDF (最常用)
  • Word (.docx, .doc)
  • Excel (.xlsx, .xls)
  • HTML/RTF

核心功能:PDF 结构化提取

对于合同或财务报告,Parse 的 Extract 模式非常强大:

{
  "filePath": "/path/to/contract.pdf",
  "formats": ["json"],
  "jsonOptions": {
    "prompt": "提取合同双方名称、起始日期和总金额",
    "schema": { ... }
  }
}

提示:解析大型 PDF 时,务必设置 maxPages 参数以防止 Token 溢出。


9.2 Agent (FIRE-1):自主研究助手

Agent 是 Firecrawl 云端的一项高级功能(异步执行)。你只需给出一个研究课题,它会自动完成:

  1. 搜索相关网页。
  2. 浏览多个页面提取信息。
  3. 汇总并输出结果。

适用场景:

  • "调研并对比 Firecrawl 和 Tavily 的定价策略"
  • "总结 2026 年最流行的 AI 编码助手功能差异"

9.3 Agent 异步工作流

由于 Agent 研究任务通常需要 2-5 分钟,其流程如下:

  1. 启动任务:调用 firecrawl_agent 返回 Job ID
  2. 状态轮询:每 30 秒调用一次 firecrawl_agent_status
  3. 获取数据:任务完成后从响应的 data 字段获取结果。

9.4 Agent vs 其他工具

你的需求 推荐工具
知道去哪个 URL 拿数据 Scrape
知道搜什么关键词看摘要 Search
只有模糊的研究目标,需要多站点收集 Agent
处理电脑里的 PDF 报告 Parse