第 9 课 — Parse 与 Agent:从本地文件到自主调研
💡 进群学习加 wx: agentupdate
(申请发送: agentupdate)
(申请发送: agentupdate)
Firecrawl 不仅能处理在线网页,还能深度解析本地文档,甚至充当你的 AI 研究助手。
9.1 Parse:本地文件结构化解析
Parse 工具允许你将本地的非结构化文档直接转为 AI 可读的 Markdown 或结构化 JSON。
支持格式:
- PDF (最常用)
- Word (.docx, .doc)
- Excel (.xlsx, .xls)
- HTML/RTF
核心功能:PDF 结构化提取
对于合同或财务报告,Parse 的 Extract 模式非常强大:
{
"filePath": "/path/to/contract.pdf",
"formats": ["json"],
"jsonOptions": {
"prompt": "提取合同双方名称、起始日期和总金额",
"schema": { ... }
}
}
提示:解析大型 PDF 时,务必设置
maxPages参数以防止 Token 溢出。
9.2 Agent (FIRE-1):自主研究助手
Agent 是 Firecrawl 云端的一项高级功能(异步执行)。你只需给出一个研究课题,它会自动完成:
- 搜索相关网页。
- 浏览多个页面提取信息。
- 汇总并输出结果。
适用场景:
- "调研并对比 Firecrawl 和 Tavily 的定价策略"
- "总结 2026 年最流行的 AI 编码助手功能差异"
9.3 Agent 异步工作流
由于 Agent 研究任务通常需要 2-5 分钟,其流程如下:
- 启动任务:调用
firecrawl_agent返回Job ID。 - 状态轮询:每 30 秒调用一次
firecrawl_agent_status。 - 获取数据:任务完成后从响应的
data字段获取结果。
9.4 Agent vs 其他工具
| 你的需求 | 推荐工具 |
|---|---|
| 知道去哪个 URL 拿数据 | Scrape |
| 知道搜什么关键词看摘要 | Search |
| 只有模糊的研究目标,需要多站点收集 | Agent |
| 处理电脑里的 PDF 报告 | Parse |