访问数:444
FireCrawl
厂家:MendableAI
简介:
抓取并将任何网站转换为 LLM-ready 的已清洗的 Markdown 结构化数据。该项目由Mendable.ai和Firecrawl社区打造,包括强大的抓取、爬网和数据提取功能。
此存储库处于早期开发阶段。开发者仍在合并mono repo中的自定义模块。它还没有完全准备好进行完全的自主机部署,但您已经可以在本地运行它了。
详细介绍 - FireCrawl
特点
FireCrawl是一个完全自动化的爬虫工具,你只需要给定一个URL,它就可以为你完成所有可访问的链接的爬取、清洗并转换为MarkDown格式。
所有难以处理的工作,都帮你做了。如:爬取、动态数据获取(比如通过JavaScript生成的内容)、转换MarkDown格式文件、缓存、为AI语料做准备等。
代码支持
你可以通过Python SDK或者Node SDK来部署该应用。该项目最大的好处理可以提供API,你可以根据需要进行调用,并获取你所要的数据。
演示
当前该项目还没有完成,但你已经可以使用它进行本地测试了。如果在线上使用,那你需要付费。下面是在其演示网站上做的一个针对本网站(https://aixtong.com)的测试。
项目信息
项目地址:GitHub - mendableai/firecrawl:
--文 by AixTong.com--