A

AnyCrawl

by any4ai
🔓 开源项目 MDX 🌍 全球 freemium

介绍

AnyCrawl 是 any4ai 开发的高性能抓取和数据提取工具包,专为 AI 生态系统设计。它支持多种爬取任务,包括多搜索引擎的 SERP 结果抓取、单页内容提取和全站遍历。该工具利用多线程和多进程实现高性能,并能处理批量任务。其独特之处在于支持基于大型语言模型 (LLM) 的结构化数据(JSON)提取,使其对 AI 应用非常友好,并且易于集成和使用,可通过 API 调用或自部署方式运行。AnyCrawl 还提供了多种渲染引擎(如 Cheerio、Playwright、Puppeteer)和缓存控制。

功能特征

  • 高性能多引擎爬虫 (SERP, Web, Site)
  • LLM 赋能的结构化数据提取
  • 支持多线程/多进程与批量任务
  • 可配置的渲染引擎 (Cheerio, Playwright, Puppeteer)
  • 提供 API 访问与自托管选项

支持平台

web