简介

Firecrawl是一款专为AI应用设计的网页数据抓取API工具,GitHub星标超过10万,号称"把整个互联网变成AI可读的数据"。

说人话就是:你给它一个网址,它帮你把网页内容扒下来,转成干净的Markdown或JSON,喂给你的AI模型。不用写正则、不用处理反爬、不用维护爬虫代码——一个API调用就完事。

能干什么

抓单页(Scrape):输入URL,输出内容。支持动态渲染的SPA页面、PDF文档。输出格式可选Markdown、HTML或JSON。

爬整站(Crawl):给个入口URL,它自己顺着链接往下爬。可以控制深度、限定域名、设置白名单黑名单。

让AI操作网页(Interact):这个功能比较新。抓完页面后,你的AI Agent可以在页面上点击、输入、提取数据,模拟人的操作。

搜索+抓取(Search):内置搜索,找到相关网页后直接抓取,不用先搜索再爬,省一步。

站点地图(Map):快速扫描一个网站的URL结构,做采集规划时有用。

价格

方案价格抓取额度并发数
免费版$0(一次性)500页2并发
Hobby$16/月(年付)3,000页/月5并发
Standard$83/月(年付)100,000页/月50并发
Growth$333/月(年付)500,000页/月100并发

CPS链接:Firecrawl官网 →

免费版给500额度,用完就没了,不是每月重置。想继续用得升级。

Hobby版年付$16,折下来一个月不到$14,给3000页。个人项目够用。

Standard版$83/月,给10万页,50并发,适合正经跑业务。这是最受欢迎的方案。

Growth版$333/月,50万页,适合大规模采集。

额外额度可以买:Hobby用户$9/1000页,Standard用户$47/35000页。

注意:额度不累积,月末清零。年付比月付便宜17%。

好在哪,差在哪

好的

免维护。不用写爬虫、不用处理反爬策略、不用修崩掉的代码。API调一下就行。

支持动态页面。那些用React/Vue渲染的SPA、需要JS执行才能看到内容的页面,它能处理。

格式灵活。Markdown、JSON、HTML、截图、链接列表,随你选。

集成方便。官方给LangChain、LlamaIndex、CrewAI都做了适配,接进AI项目很快。

差的

免费额度少。500页测个demo还行,稍微多点的项目就得掏钱。

大规模抓取贵。10万页/月要$83,50万页要$333。如果你的需求量大,成本不低。

国内访问可能需要代理。毕竟服务器在海外。

高级功能的FIRE-1 Agent失败也计费。这个挺坑,文档里写了但容易被忽略。

谁该用,谁不该用

适合

做AI应用的开发者——你需要数据喂模型,它帮你把网页变成数据。

数据分析师——需要从网页提取结构化数据做分析。

内容运营——要批量采集竞品信息、行业资讯。

搞RPA的——需要稳定的网页数据采集能力。

不适合

只是偶尔抓几个页面的人。用免费工具或者手写几行Python更划算。

对成本极度敏感的小团队。量大烧钱快。

要抓高度反爬网站的场景。Firecrawl也绕不过强验证码和登录墙,别指望它干这种脏活。

怎么用

注册拿Key

去官网注册,Dashboard里创建API Key。免费版不用绑卡。

装SDK(可选)

pip install firecrawl-py
# 或
npm install @mendable/firecrawl-js

调用

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key='your-api-key')

# 抓单页
result = app.scrape_url('https://example.com')
print(result['markdown'])

# 爬整站
crawl_result = app.crawl_url('https://example.com')

选输出格式

markdownhtmlrawHtmllinksscreenshot,参数里指定就行。

接AI框架

官方有LangChain、LlamaIndex、CrewAI的集成包,直接当数据源用。

建议

先用免费版500额度测试,看看抓取质量符不符合你的需求。效果满意再付费。

个人项目或小工具:Hobby版够用,$16/月(年付更便宜)。

生产环境:Standard版性价比最高,$83/月换10万页+50并发,够大多数项目跑。

大规模采集:Growth版或找销售谈Enterprise。

官方链接:Firecrawl官网 →