第 5 课 — 深度掌握 Scrape：抓取一切网页 — firecrawl-tutorial

Scrape 是 Firecrawl 最核心的工具。本课将带你深入了解如何通过参数控制，精准、高效地抓取任何复杂的网页。

5.1 输出格式与降噪

你可以根据 AI 或应用的需求，请求一种或多种输出格式：

markdown (首选)：最适合 LLM 消费。
html：保留原始结构。
screenshot：获取页面视觉快照。
links：提取页面内所有链接。

核心技巧：内容降噪 设置 onlyMainContent: true。Firecrawl 会利用其 AI 模型自动识别并保留正文内容，剔除导航、页脚、侧边栏和广告，大幅减少后续处理的 Token 消耗。

5.2 处理动态内容 (JS 渲染)

现代网页多由 React 或 Vue 驱动，需要等待 JS 执行完毕。使用 waitFor 参数（单位：毫秒）：

{
  "url": "https://example.com",
  "formats": ["markdown"],
  "waitFor": 3000
}

建议：普通页面 3000ms，复杂 SPA 应用 5000-10000ms。

5.3 精准控制：标签过滤

如果你只需要页面中的特定部分（如产品列表或评论区），可以使用：

includeTags：只包含指定的 CSS 选择器。
excludeTags：排除不需要的元素。

示例：

"includeTags": ["article.product-card", ".price-section"],
"excludeTags": ["aside", ".recommended-ads"]

5.4 链式操作 (Actions)

在抓取内容之前，你可以让浏览器执行一系列动作：

wait：等待。
scroll：上下滚动（触发懒加载）。
click：点击按钮或链接。
write / press：输入文字并按键。

实战案例：滚动两次并截图

"actions": [
  { "type": "scroll", "direction": "down" },
  { "type": "wait", "milliseconds": 1000 },
  { "type": "scroll", "direction": "down" },
  { "type": "screenshot" }
]

5.5 代理与反爬模式

面对不同防护力度的网站，请选择合适的代理策略：

basic：默认模式，适用于无反爬的普通站点。
stealth：模拟真实浏览器指纹，绕过基础检测。
enhanced：最强模式。使用全球住宅代理池，专门对抗 Cloudflare 等强力反爬工具。
auto：由系统自动根据目标站点状态选择。