第 10 课 — 高级配置与最佳实践
💡 进群学习加 wx: agentupdate
(申请发送: agentupdate)
(申请发送: agentupdate)
本课将介绍如何通过高级配置优化 Firecrawl 的性能,并分享在复杂生产环境下的最佳实践。
10.1 MCP Server 高级配置
你可以在两个层级配置 MCP Server:
- 全局配置 (
~/.claude/settings.json):所有项目共用。 - 项目配置 (
./.claude/settings.json):仅当前项目生效。
环境变量说明:
FIRECRAWL_API_KEY:云服务必填。FIRECRAWL_API_URL:本地自建必填(如http://localhost:3002)。
10.2 浏览器 Profile 复用 (持久化登录)
如果你需要多次抓取同一个需要登录的网站,可以使用 Profile 功能保持 Session:
"profile": {
"name": "my-session-name",
"saveChanges": true
}
拥有相同 name 的请求将共享 Cookie 和 LocalStorage,避免重复登录并绕过部分安全检测。
10.3 代理策略选择指南
| 策略 | 适用场景 | 说明 |
|---|---|---|
basic |
普通站点 | 成本最低。 |
stealth |
基础反爬站点 | 模拟真实浏览器指纹。 |
enhanced |
Cloudflare 等强防护站点 | 住宅 IP + 高级指纹。 |
auto |
不确定防护级别 | 系统自动尝试,推荐首选。 |
10.4 生产环境最佳实践
1. 减少 Token 消耗 (省钱/提速)
- 开启
onlyMainContent: true剔除网页噪音。 - 使用
includeTags精准提取目标区域。 - 设置
removeBase64Images: true减小响应体积。
2. 缓存策略
对于不经常变动的页面(如技术文档、API 参考),开启缓存可以大幅节省 Credit:
"storeInCache": true,
"maxAge": 3600 // 缓存 1 小时
3. 礼貌爬取
- 单域名请求间隔建议保持在 2 秒以上。
- 优先使用 Map + 定向 Scrape 而非全站盲目 Crawl。
- 尊重目标站点的
robots.txt(Firecrawl 默认遵守)。