第 5 课 — 深度掌握 Scrape:抓取一切网页

⏱ 预计阅读 4 分钟 更新于 2026/5/7
💡 进群学习加 wx: agentupdate
(申请发送: agentupdate)

Scrape 是 Firecrawl 最核心的工具。本课将带你深入了解如何通过参数控制,精准、高效地抓取任何复杂的网页。

5.1 输出格式与降噪

你可以根据 AI 或应用的需求,请求一种或多种输出格式:

  • markdown (首选):最适合 LLM 消费。
  • html:保留原始结构。
  • screenshot:获取页面视觉快照。
  • links:提取页面内所有链接。

核心技巧:内容降噪 设置 onlyMainContent: true。Firecrawl 会利用其 AI 模型自动识别并保留正文内容,剔除导航、页脚、侧边栏和广告,大幅减少后续处理的 Token 消耗。


5.2 处理动态内容 (JS 渲染)

现代网页多由 React 或 Vue 驱动,需要等待 JS 执行完毕。 使用 waitFor 参数(单位:毫秒):

{
  "url": "https://example.com",
  "formats": ["markdown"],
  "waitFor": 3000
}

建议:普通页面 3000ms,复杂 SPA 应用 5000-10000ms。


5.3 精准控制:标签过滤

如果你只需要页面中的特定部分(如产品列表或评论区),可以使用:

  • includeTags:只包含指定的 CSS 选择器。
  • excludeTags:排除不需要的元素。

示例

"includeTags": ["article.product-card", ".price-section"],
"excludeTags": ["aside", ".recommended-ads"]

5.4 链式操作 (Actions)

在抓取内容之前,你可以让浏览器执行一系列动作:

  • wait:等待。
  • scroll:上下滚动(触发懒加载)。
  • click:点击按钮或链接。
  • write / press:输入文字并按键。

实战案例:滚动两次并截图

"actions": [
  { "type": "scroll", "direction": "down" },
  { "type": "wait", "milliseconds": 1000 },
  { "type": "scroll", "direction": "down" },
  { "type": "screenshot" }
]

5.5 代理与反爬模式

面对不同防护力度的网站,请选择合适的代理策略:

  • basic:默认模式,适用于无反爬的普通站点。
  • stealth:模拟真实浏览器指纹,绕过基础检测。
  • enhanced:最强模式。使用全球住宅代理池,专门对抗 Cloudflare 等强力反爬工具。
  • auto:由系统自动根据目标站点状态选择。