第 10 课 — 高级配置与最佳实践

⏱ 预计阅读 3 分钟 更新于 2026/5/7
💡 进群学习加 wx: agentupdate
(申请发送: agentupdate)

本课将介绍如何通过高级配置优化 Firecrawl 的性能,并分享在复杂生产环境下的最佳实践。

10.1 MCP Server 高级配置

你可以在两个层级配置 MCP Server:

  • 全局配置 (~/.claude/settings.json):所有项目共用。
  • 项目配置 (./.claude/settings.json):仅当前项目生效。

环境变量说明:

  • FIRECRAWL_API_KEY:云服务必填。
  • FIRECRAWL_API_URL:本地自建必填(如 http://localhost:3002)。

10.2 浏览器 Profile 复用 (持久化登录)

如果你需要多次抓取同一个需要登录的网站,可以使用 Profile 功能保持 Session:

"profile": {
  "name": "my-session-name",
  "saveChanges": true
}

拥有相同 name 的请求将共享 Cookie 和 LocalStorage,避免重复登录并绕过部分安全检测。


10.3 代理策略选择指南

策略 适用场景 说明
basic 普通站点 成本最低。
stealth 基础反爬站点 模拟真实浏览器指纹。
enhanced Cloudflare 等强防护站点 住宅 IP + 高级指纹。
auto 不确定防护级别 系统自动尝试,推荐首选。

10.4 生产环境最佳实践

1. 减少 Token 消耗 (省钱/提速)

  • 开启 onlyMainContent: true 剔除网页噪音。
  • 使用 includeTags 精准提取目标区域。
  • 设置 removeBase64Images: true 减小响应体积。

2. 缓存策略

对于不经常变动的页面(如技术文档、API 参考),开启缓存可以大幅节省 Credit:

"storeInCache": true,
"maxAge": 3600 // 缓存 1 小时

3. 礼貌爬取

  • 单域名请求间隔建议保持在 2 秒以上。
  • 优先使用 Map + 定向 Scrape 而非全站盲目 Crawl。
  • 尊重目标站点的 robots.txt(Firecrawl 默认遵守)。