第 5 课 — 深度掌握 Scrape:抓取一切网页
💡 进群学习加 wx: agentupdate
(申请发送: agentupdate)
(申请发送: agentupdate)
Scrape 是 Firecrawl 最核心的工具。本课将带你深入了解如何通过参数控制,精准、高效地抓取任何复杂的网页。
5.1 输出格式与降噪
你可以根据 AI 或应用的需求,请求一种或多种输出格式:
markdown(首选):最适合 LLM 消费。html:保留原始结构。screenshot:获取页面视觉快照。links:提取页面内所有链接。
核心技巧:内容降噪
设置 onlyMainContent: true。Firecrawl 会利用其 AI 模型自动识别并保留正文内容,剔除导航、页脚、侧边栏和广告,大幅减少后续处理的 Token 消耗。
5.2 处理动态内容 (JS 渲染)
现代网页多由 React 或 Vue 驱动,需要等待 JS 执行完毕。
使用 waitFor 参数(单位:毫秒):
{
"url": "https://example.com",
"formats": ["markdown"],
"waitFor": 3000
}
建议:普通页面 3000ms,复杂 SPA 应用 5000-10000ms。
5.3 精准控制:标签过滤
如果你只需要页面中的特定部分(如产品列表或评论区),可以使用:
includeTags:只包含指定的 CSS 选择器。excludeTags:排除不需要的元素。
示例:
"includeTags": ["article.product-card", ".price-section"],
"excludeTags": ["aside", ".recommended-ads"]
5.4 链式操作 (Actions)
在抓取内容之前,你可以让浏览器执行一系列动作:
wait:等待。scroll:上下滚动(触发懒加载)。click:点击按钮或链接。write/press:输入文字并按键。
实战案例:滚动两次并截图
"actions": [
{ "type": "scroll", "direction": "down" },
{ "type": "wait", "milliseconds": 1000 },
{ "type": "scroll", "direction": "down" },
{ "type": "screenshot" }
]
5.5 代理与反爬模式
面对不同防护力度的网站,请选择合适的代理策略:
basic:默认模式,适用于无反爬的普通站点。stealth:模拟真实浏览器指纹,绕过基础检测。enhanced:最强模式。使用全球住宅代理池,专门对抗 Cloudflare 等强力反爬工具。auto:由系统自动根据目标站点状态选择。