AnyCrawl
by any4ai
介绍
AnyCrawl 是 any4ai 开发的高性能抓取和数据提取工具包,专为 AI 生态系统设计。它支持多种爬取任务,包括多搜索引擎的 SERP 结果抓取、单页内容提取和全站遍历。该工具利用多线程和多进程实现高性能,并能处理批量任务。其独特之处在于支持基于大型语言模型 (LLM) 的结构化数据(JSON)提取,使其对 AI 应用非常友好,并且易于集成和使用,可通过 API 调用或自部署方式运行。AnyCrawl 还提供了多种渲染引擎(如 Cheerio、Playwright、Puppeteer)和缓存控制。
功能特征
- 高性能多引擎爬虫 (SERP, Web, Site)
- LLM 赋能的结构化数据提取
- 支持多线程/多进程与批量任务
- 可配置的渲染引擎 (Cheerio, Playwright, Puppeteer)
- 提供 API 访问与自托管选项
支持平台
web