第 1 课 — Firecrawl 是什么：AI 网页数据基础设施

5 分钟阅读 | 更新于：2026-06-16

1.1 产品定位

Firecrawl 是专为 AI Agent 和 LLM 应用设计的网页数据基础设施。它不仅仅是一个简单的爬虫，而是一套完整的 Web 数据获取、转换和交互平台，旨在将互联网上的非结构化网页转化为 AI 可直接消费的清洁数据。

核心价值主张：

搜索 (Search)：内置搜索引擎，一次调用返回搜索结果 + 页面内容。
抓取 (Scrape)：将任意 URL 转为 Markdown、HTML、截图或结构化 JSON。
交互 (Interact)：在浏览器中执行点击、填表、滚动等操作，处理动态内容。
自主研究 (Agent)：支持 AI Agent 自主浏览多站点，完成复杂的研究任务。
文件解析 (Parse)：直接将本地 PDF、Word、Excel 文件转为结构化数据。

1.2 核心能力一览

能力	API 端点	MCP 工具名	说明
Scrape	`/v1/scrape`	`firecrawl_scrape`	抓取单个页面，支持 JS 渲染
Search	`/v1/search`	`firecrawl_search`	搜索 + 抓取一体化
Crawl	`/v1/crawl`	`firecrawl_crawl`	批量深度抓取整站
Map	`/v1/map`	`firecrawl_map`	发现站点所有 URL
Extract	`/v1/extract`	`firecrawl_extract`	LLM 结构化多页提取
Interact	`/v1/scrape` + interact	`firecrawl_interact`	抓取后浏览器交互
Parse	`/v1/parse`	`firecrawl_parse`	本地文件解析
Agent	`/v1/agent`	`firecrawl_agent`	自主浏览研究 Agent

1.3 架构概览

Firecrawl 的底层架构确保了其在高并发和复杂反爬环境下的稳定性：

API Server (Express.js)：处理请求分发、身份验证和路由。
Worker Queue (BullMQ/Redis)：管理异步任务（如 Crawl 和 Agent）。
Browser Engine (Playwright)：无头浏览器池，负责渲染 JS、执行交互。
代理池 (Proxy Pool)：内置全球住宅代理，提供三级反爬能力。

1.4 适用场景

场景	推荐工具组合
AI Agent 获取实时网页信息	Search → Scrape
RAG 知识库构建	Map → Crawl → Markdown
竞品价格监控	Extract + JSON Schema
技术文档批量采集	Map (search) → Crawl
需登录页面的数据抓取	Scrape → Interact
本地 PDF/Word 文档解析	Parse

1.5 两种 "Agent" 概念：不要混淆

在 Firecrawl 生态中，存在两种不同的 Agent，它们的职责完全不同：

特性	Firecrawl Agent (FIRE-1)	LLM Agent (如 Claude Code)
运行位置	Firecrawl 云端服务器	你的本地开发环境
决策主体	Firecrawl AI 自主决定搜什么	LLM 决定调用哪个 MCP 工具
运行模式	一次调用完成所有步骤	循环多次调用不同工具
计费方式	动态计费（按需）	按 API 调用次数计费

核心区别：

云端模式：Claude Code 只需一次调用，Firecrawl 云端 Agent 自主完成所有搜索和浏览。
本地模式：Claude Code 自己充当 Agent，通过多次调用不同的 Firecrawl 工具来逐步拼凑出结果。

下一课时 → 第 2 课 — 云服务 (Cloud) 快速上手