第 1 课 — Firecrawl 是什么:AI 网页数据基础设施

⏱ 预计阅读 5 分钟 更新于 2026/5/7
💡 进群学习加 wx: agentupdate
(申请发送: agentupdate)

1.1 产品定位

Firecrawl 是专为 AI Agent 和 LLM 应用设计的网页数据基础设施。它不仅仅是一个简单的爬虫,而是一套完整的 Web 数据获取、转换和交互平台,旨在将互联网上的非结构化网页转化为 AI 可直接消费的清洁数据。

核心价值主张:

  • 搜索 (Search):内置搜索引擎,一次调用返回搜索结果 + 页面内容。
  • 抓取 (Scrape):将任意 URL 转为 Markdown、HTML、截图或结构化 JSON。
  • 交互 (Interact):在浏览器中执行点击、填表、滚动等操作,处理动态内容。
  • 自主研究 (Agent):支持 AI Agent 自主浏览多站点,完成复杂的研究任务。
  • 文件解析 (Parse):直接将本地 PDF、Word、Excel 文件转为结构化数据。

1.2 核心能力一览

能力 API 端点 MCP 工具名 说明
Scrape /v1/scrape firecrawl_scrape 抓取单个页面,支持 JS 渲染
Search /v1/search firecrawl_search 搜索 + 抓取一体化
Crawl /v1/crawl firecrawl_crawl 批量深度抓取整站
Map /v1/map firecrawl_map 发现站点所有 URL
Extract /v1/extract firecrawl_extract LLM 结构化多页提取
Interact /v1/scrape + interact firecrawl_interact 抓取后浏览器交互
Parse /v1/parse firecrawl_parse 本地文件解析
Agent /v1/agent firecrawl_agent 自主浏览研究 Agent

1.3 架构概览

Firecrawl 的底层架构确保了其在高并发和复杂反爬环境下的稳定性:

  1. API Server (Express.js):处理请求分发、身份验证和路由。
  2. Worker Queue (BullMQ/Redis):管理异步任务(如 Crawl 和 Agent)。
  3. Browser Engine (Playwright):无头浏览器池,负责渲染 JS、执行交互。
  4. 代理池 (Proxy Pool):内置全球住宅代理,提供三级反爬能力。

1.4 适用场景

场景 推荐工具组合
AI Agent 获取实时网页信息 Search → Scrape
RAG 知识库构建 Map → Crawl → Markdown
竞品价格监控 Extract + JSON Schema
技术文档批量采集 Map (search) → Crawl
需登录页面的数据抓取 Scrape → Interact
本地 PDF/Word 文档解析 Parse

1.5 两种 "Agent" 概念:不要混淆

在 Firecrawl 生态中,存在两种不同的 Agent,它们的职责完全不同:

特性 Firecrawl Agent (FIRE-1) LLM Agent (如 Claude Code)
运行位置 Firecrawl 云端服务器 你的本地开发环境
决策主体 Firecrawl AI 自主决定搜什么 LLM 决定调用哪个 MCP 工具
运行模式 一次调用完成所有步骤 循环多次调用不同工具
计费方式 动态计费(按需) 按 API 调用次数计费

核心区别:

  • 云端模式:Claude Code 只需一次调用,Firecrawl 云端 Agent 自主完成所有搜索和浏览。
  • 本地模式:Claude Code 自己充当 Agent,通过多次调用不同的 Firecrawl 工具来逐步拼凑出结果。