第 1 课 — Firecrawl 是什么:AI 网页数据基础设施
💡 进群学习加 wx: agentupdate
(申请发送: agentupdate)
(申请发送: agentupdate)
1.1 产品定位
Firecrawl 是专为 AI Agent 和 LLM 应用设计的网页数据基础设施。它不仅仅是一个简单的爬虫,而是一套完整的 Web 数据获取、转换和交互平台,旨在将互联网上的非结构化网页转化为 AI 可直接消费的清洁数据。
核心价值主张:
- 搜索 (Search):内置搜索引擎,一次调用返回搜索结果 + 页面内容。
- 抓取 (Scrape):将任意 URL 转为 Markdown、HTML、截图或结构化 JSON。
- 交互 (Interact):在浏览器中执行点击、填表、滚动等操作,处理动态内容。
- 自主研究 (Agent):支持 AI Agent 自主浏览多站点,完成复杂的研究任务。
- 文件解析 (Parse):直接将本地 PDF、Word、Excel 文件转为结构化数据。
1.2 核心能力一览
| 能力 | API 端点 | MCP 工具名 | 说明 |
|---|---|---|---|
| Scrape | /v1/scrape |
firecrawl_scrape |
抓取单个页面,支持 JS 渲染 |
| Search | /v1/search |
firecrawl_search |
搜索 + 抓取一体化 |
| Crawl | /v1/crawl |
firecrawl_crawl |
批量深度抓取整站 |
| Map | /v1/map |
firecrawl_map |
发现站点所有 URL |
| Extract | /v1/extract |
firecrawl_extract |
LLM 结构化多页提取 |
| Interact | /v1/scrape + interact |
firecrawl_interact |
抓取后浏览器交互 |
| Parse | /v1/parse |
firecrawl_parse |
本地文件解析 |
| Agent | /v1/agent |
firecrawl_agent |
自主浏览研究 Agent |
1.3 架构概览
Firecrawl 的底层架构确保了其在高并发和复杂反爬环境下的稳定性:
- API Server (Express.js):处理请求分发、身份验证和路由。
- Worker Queue (BullMQ/Redis):管理异步任务(如 Crawl 和 Agent)。
- Browser Engine (Playwright):无头浏览器池,负责渲染 JS、执行交互。
- 代理池 (Proxy Pool):内置全球住宅代理,提供三级反爬能力。
1.4 适用场景
| 场景 | 推荐工具组合 |
|---|---|
| AI Agent 获取实时网页信息 | Search → Scrape |
| RAG 知识库构建 | Map → Crawl → Markdown |
| 竞品价格监控 | Extract + JSON Schema |
| 技术文档批量采集 | Map (search) → Crawl |
| 需登录页面的数据抓取 | Scrape → Interact |
| 本地 PDF/Word 文档解析 | Parse |
1.5 两种 "Agent" 概念:不要混淆
在 Firecrawl 生态中,存在两种不同的 Agent,它们的职责完全不同:
| 特性 | Firecrawl Agent (FIRE-1) | LLM Agent (如 Claude Code) |
|---|---|---|
| 运行位置 | Firecrawl 云端服务器 | 你的本地开发环境 |
| 决策主体 | Firecrawl AI 自主决定搜什么 | LLM 决定调用哪个 MCP 工具 |
| 运行模式 | 一次调用完成所有步骤 | 循环多次调用不同工具 |
| 计费方式 | 动态计费(按需) | 按 API 调用次数计费 |
核心区别:
- 云端模式:Claude Code 只需一次调用,Firecrawl 云端 Agent 自主完成所有搜索和浏览。
- 本地模式:Claude Code 自己充当 Agent,通过多次调用不同的 Firecrawl 工具来逐步拼凑出结果。