mendableai/firecrawl-mcp-server

官方Firecrawl MCP服务器 - 为Cursor、Claude和其他LLM客户端添加强大的网页爬取功能

MITJavaScript 3.4kmendableai Last Updated: 2025-06-04

https://github.com/mendableai/firecrawl-mcp-server

Firecrawl MCP Server 详细介绍

项目概述

Firecrawl MCP Server 是由 Mendable AI 团队开发的官方模型上下文协议（Model Context Protocol，MCP）服务器实现，专门为大语言模型（LLM）客户端提供强大的网页爬取功能。该项目将 Firecrawl 的网页爬取能力无缝集成到 Cursor、Claude Desktop 等主流 AI 开发工具中，让 AI 助手能够实时获取和分析网页内容。

项目特点：

🎯 官方支持：由 Firecrawl 团队官方维护
🔌 即插即用：通过 MCP 协议轻松集成到各种 LLM 客户端
⚡ 高性能：支持 JavaScript 渲染和智能批量处理
🛡️ 企业级：内置重试机制、速率限制和错误处理

核心功能特性

🕷️ 网页爬取与抓取

单页面爬取：快速获取指定网页的完整内容
JavaScript 渲染：处理动态加载的现代网页应用
批量爬取：高效处理多个 URL，内置并行处理和速率限制
深度爬取：支持多层级网站结构的递归爬取
移动端支持：可模拟移动设备和桌面设备视角

🔍 智能搜索与发现

网络搜索：集成搜索引擎功能，自动发现相关内容
URL 发现：智能识别和提取网页中的链接
内容过滤：支持标签包含/排除，精确控制爬取内容
去重处理：自动识别和处理相似 URL

🧠 AI 驱动的内容提取

结构化提取：使用 LLM 从网页中提取结构化数据
自定义提示：支持自定义提取规则和数据模式
深度研究：结合爬取、搜索和 AI 分析的综合研究功能
llms.txt 生成：为网站生成标准化的 LLM 交互文件

🔧 技术特性

自动重试：指数退避算法处理失败请求
速率限制：智能队列和节流机制
信用监控：实时跟踪 API 使用量和成本
多环境支持：同时支持云端 API 和自托管实例
SSE 支持：服务器发送事件实现实时通信

支持的客户端平台

Cursor IDE

版本要求：0.45.6+
集成方式：通过 MCP 服务器配置
功能：Composer Agent 自动调用网页爬取功能

Claude Desktop

通过配置文件集成
支持环境变量配置
完整的功能支持

VS Code

通过 MCP 扩展支持
可配置工作区级别设置
支持团队协作配置

Windsurf

原生 MCP 支持
简单的 JSON 配置

主要工具函数

1. firecrawl_scrape

单页面内容爬取，支持高级选项：

多种输出格式（Markdown、HTML、结构化数据）
仅主要内容提取
自定义等待时间和超时设置
标签过滤和移动端模拟

2. firecrawl_batch_scrape

批量爬取多个 URL：

并行处理提升效率
内置速率限制保护
统一配置选项应用

3. firecrawl_search

网络搜索与内容提取：

多语言和地区支持
搜索结果内容自动提取
可配置结果数量限制

4. firecrawl_crawl

网站深度爬取：

递归爬取多层页面
智能 URL 去重
外部链接控制

5. firecrawl_extract

AI 驱动的结构化数据提取：

自定义 JSON Schema
LLM 智能分析
批量数据处理

6. firecrawl_deep_research

综合研究分析：

多源信息聚合
时间和深度限制
AI 生成研究报告

7. firecrawl_generate_llmstxt

标准化文件生成：

网站 LLM 交互规范
自动化文档生成
完整和简化版本支持

配置与部署

环境变量配置

# 必需配置（云端 API）
FIRECRAWL_API_KEY=your-api-key

# 可选配置（自托管）
FIRECRAWL_API_URL=https://firecrawl.your-domain.com

# 重试机制配置
FIRECRAWL_RETRY_MAX_ATTEMPTS=3
FIRECRAWL_RETRY_INITIAL_DELAY=1000
FIRECRAWL_RETRY_MAX_DELAY=10000
FIRECRAWL_RETRY_BACKOFF_FACTOR=2

# 信用监控配置
FIRECRAWL_CREDIT_WARNING_THRESHOLD=1000
FIRECRAWL_CREDIT_CRITICAL_THRESHOLD=100

快速启动

# 使用 npx 直接运行
env FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp

# 全局安装
npm install -g firecrawl-mcp

# SSE 模式启动
env SSE_LOCAL=true FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp

高级特性

智能重试机制

指数退避算法：自动调整重试间隔
最大重试次数：可配置的失败处理策略
智能错误识别：区分临时性和永久性错误

性能优化

并行处理：多 URL 同时处理提升效率
智能队列：请求优先级和负载均衡
内存管理：大批量任务的资源优化

监控与日志

详细日志：操作状态、性能指标、错误追踪
信用监控：实时使用量跟踪和预警
速率监控：API 调用频率和限制状态

应用场景

内容研究与分析

竞品分析和市场研究
新闻和资讯聚合
学术研究资料收集
趋势分析和数据挖掘

数据提取与整理

产品信息批量提取
联系信息和目录整理
价格监控和比较
结构化数据生成

AI 助手增强

实时信息查询能力
网页内容理解和总结
多源信息整合分析
自动化研究报告生成

开发与集成

API 数据源补充
内容管理系统集成
自动化测试数据准备
文档和知识库构建

技术优势

可靠性

容错机制：多层级错误处理和恢复
稳定性保证：经过大规模生产环境验证
兼容性：支持多种部署环境和配置

扩展性

模块化设计：功能组件可独立配置和使用
API 兼容：支持云端和自托管双模式
插件化架构：易于扩展和定制

性能表现

高并发：优化的异步处理架构
低延迟：智能缓存和预处理机制
资源效率：内存和网络资源优化使用

社区与支持

开源社区

MIT 许可证：完全开源，商业友好
活跃维护：官方团队持续更新和支持
社区贡献：欢迎开发者参与改进

技术支持

详细文档：完整的安装和使用指南
示例代码：丰富的使用案例和最佳实践
问题反馈：GitHub Issues 快速响应机制

总结

Firecrawl MCP Server 是一个功能强大、设计精良的网页爬取解决方案，专门为 AI 时代的开发需求而设计。它不仅提供了传统爬虫的基础功能，更重要的是通过 MCP 协议实现了与各种 LLM 客户端的无缝集成，让 AI 助手能够实时获取和理解网络内容。

核心价值：

降低门槛：简化了 AI 应用中网页数据获取的复杂性
提升效率：智能化的批量处理和错误处理机制
保证质量：企业级的稳定性和可靠性设计
促进创新：为 AI 应用开发提供了强大的数据获取能力

无论是个人开发者还是企业团队，无论是简单的内容提取还是复杂的数据研究，Firecrawl MCP Server 都能提供专业、高效、可靠的解决方案，是现代 AI 应用开发工具链中不可或缺的重要组件。