简介
Firecrawl是一款专为AI应用设计的网页数据抓取API工具,GitHub星标超过10万,号称"把整个互联网变成AI可读的数据"。
说人话就是:你给它一个网址,它帮你把网页内容扒下来,转成干净的Markdown或JSON,喂给你的AI模型。不用写正则、不用处理反爬、不用维护爬虫代码——一个API调用就完事。
能干什么
抓单页(Scrape):输入URL,输出内容。支持动态渲染的SPA页面、PDF文档。输出格式可选Markdown、HTML或JSON。
爬整站(Crawl):给个入口URL,它自己顺着链接往下爬。可以控制深度、限定域名、设置白名单黑名单。
让AI操作网页(Interact):这个功能比较新。抓完页面后,你的AI Agent可以在页面上点击、输入、提取数据,模拟人的操作。
搜索+抓取(Search):内置搜索,找到相关网页后直接抓取,不用先搜索再爬,省一步。
站点地图(Map):快速扫描一个网站的URL结构,做采集规划时有用。
价格
| 方案 | 价格 | 抓取额度 | 并发数 |
|---|---|---|---|
| 免费版 | $0(一次性) | 500页 | 2并发 |
| Hobby | $16/月(年付) | 3,000页/月 | 5并发 |
| Standard | $83/月(年付) | 100,000页/月 | 50并发 |
| Growth | $333/月(年付) | 500,000页/月 | 100并发 |
免费版给500额度,用完就没了,不是每月重置。想继续用得升级。
Hobby版年付$16,折下来一个月不到$14,给3000页。个人项目够用。
Standard版$83/月,给10万页,50并发,适合正经跑业务。这是最受欢迎的方案。
Growth版$333/月,50万页,适合大规模采集。
额外额度可以买:Hobby用户$9/1000页,Standard用户$47/35000页。
注意:额度不累积,月末清零。年付比月付便宜17%。
好在哪,差在哪
好的:
免维护。不用写爬虫、不用处理反爬策略、不用修崩掉的代码。API调一下就行。
支持动态页面。那些用React/Vue渲染的SPA、需要JS执行才能看到内容的页面,它能处理。
格式灵活。Markdown、JSON、HTML、截图、链接列表,随你选。
集成方便。官方给LangChain、LlamaIndex、CrewAI都做了适配,接进AI项目很快。
差的:
免费额度少。500页测个demo还行,稍微多点的项目就得掏钱。
大规模抓取贵。10万页/月要$83,50万页要$333。如果你的需求量大,成本不低。
国内访问可能需要代理。毕竟服务器在海外。
高级功能的FIRE-1 Agent失败也计费。这个挺坑,文档里写了但容易被忽略。
谁该用,谁不该用
适合:
做AI应用的开发者——你需要数据喂模型,它帮你把网页变成数据。
数据分析师——需要从网页提取结构化数据做分析。
内容运营——要批量采集竞品信息、行业资讯。
搞RPA的——需要稳定的网页数据采集能力。
不适合:
只是偶尔抓几个页面的人。用免费工具或者手写几行Python更划算。
对成本极度敏感的小团队。量大烧钱快。
要抓高度反爬网站的场景。Firecrawl也绕不过强验证码和登录墙,别指望它干这种脏活。
怎么用
注册拿Key
去官网注册,Dashboard里创建API Key。免费版不用绑卡。
装SDK(可选)
pip install firecrawl-py
# 或
npm install @mendable/firecrawl-js
调用
from firecrawl import FirecrawlApp
app = FirecrawlApp(api_key='your-api-key')
# 抓单页
result = app.scrape_url('https://example.com')
print(result['markdown'])
# 爬整站
crawl_result = app.crawl_url('https://example.com')
选输出格式
markdown、html、rawHtml、links、screenshot,参数里指定就行。
接AI框架
官方有LangChain、LlamaIndex、CrewAI的集成包,直接当数据源用。
建议
先用免费版500额度测试,看看抓取质量符不符合你的需求。效果满意再付费。
个人项目或小工具:Hobby版够用,$16/月(年付更便宜)。
生产环境:Standard版性价比最高,$83/月换10万页+50并发,够大多数项目跑。
大规模采集:Growth版或找销售谈Enterprise。
官方链接:Firecrawl官网 →
