Firecrawl は、URLを受け取り、それをクロールし、クリーンな markdown または構造化データに変換する API サービスです。アクセス可能なすべてのサブページをクロールし、各ページにクリーンなデータを提供します。サイトマップは不要です。
コンテンツのスクレイピング前に、さまざまなアクションを実行可能:
curl -X POST https://api.firecrawl.dev/v1/crawl \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer fc-YOUR_API_KEY' \
-d '{
"url": "https://docs.firecrawl.dev",
"limit": 10,
"scrapeOptions": {
"formats": ["markdown", "html"]
}
}'
curl -X POST https://api.firecrawl.dev/v1/scrape \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://docs.firecrawl.dev",
"formats" : ["markdown", "html"]
}'
curl -X POST https://api.firecrawl.dev/v1/scrape \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://www.mendable.ai/",
"formats": ["json"],
"jsonOptions": {
"schema": {
"type": "object",
"properties": {
"company_mission": {"type": "string"},
"supports_sso": {"type": "boolean"},
"is_open_source": {"type": "boolean"},
"is_in_yc": {"type": "boolean"}
},
"required": ["company_mission", "supports_sso", "is_open_source", "is_in_yc"]
}
}
}'
pip install firecrawl-py
from firecrawl.firecrawl import FirecrawlApp
from firecrawl.firecrawl import ScrapeOptions
app = FirecrawlApp(api_key="fc-YOUR_API_KEY")
# ウェブサイトのスクレイピング
scrape_status = app.scrape_url(
'https://firecrawl.dev',
formats=["markdown", "html"]
)
print(scrape_status)
# ウェブサイトのクローリング
crawl_status = app.crawl_url(
'https://firecrawl.dev',
limit=100,
scrape_options=ScrapeOptions(formats=["markdown", "html"]),
poll_interval=30
)
print(crawl_status)
npm install @mendable/firecrawl-js
import FirecrawlApp, { CrawlParams, CrawlStatusResponse } from '@mendable/firecrawl-js';
const app = new FirecrawlApp({apiKey: "fc-YOUR_API_KEY"});
// ウェブサイトのスクレイピング
const scrapeResponse = await app.scrapeUrl('https://firecrawl.dev', {
formats: ['markdown', 'html'],
});
if (scrapeResponse) {
console.log(scrapeResponse)
}
// ウェブサイトのクローリング
const crawlResponse = await app.crawlUrl('https://firecrawl.dev', {
limit: 100,
scrapeOptions: {
formats: ['markdown', 'html'],
}
} satisfies CrawlParams, true, 30) satisfies CrawlStatusResponse;
Firecrawl を使用してスクレイピング、検索、およびクロールを行う場合、ユーザーはウェブサイトのポリシーを遵守する責任があります。スクレイピング活動を開始する前に、該当するウェブサイトのプライバシーポリシーと利用規約を遵守することをお勧めします。デフォルトでは、Firecrawl はクロール時にウェブサイトの robots.txt ファイルで指定された指示に従います。
このプロジェクトは現在、活発な開発状態にあり、チームはカスタムモジュールをモノリシックリポジトリに統合しています。セルフホスティングデプロイメントの準備はまだ完了していませんが、開発およびテストのためにローカルで実行できます。このプロジェクトは、活発なコミュニティと継続的な更新があり、ウェブデータ抽出の分野における主要なソリューションです。