Firecrawl은 URL을 받아 크롤링하고, 깨끗한 마크다운 또는 구조화된 데이터로 변환하는 API 서비스입니다. 접근 가능한 모든 하위 페이지를 크롤링하여 각 페이지에 대한 깨끗한 데이터를 제공합니다. 사이트맵이 필요 없습니다.
콘텐츠를 스크래핑하기 전에 다양한 작업 수행 가능:
curl -X POST https://api.firecrawl.dev/v1/crawl \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer fc-YOUR_API_KEY' \
-d '{
"url": "https://docs.firecrawl.dev",
"limit": 10,
"scrapeOptions": {
"formats": ["markdown", "html"]
}
}'
curl -X POST https://api.firecrawl.dev/v1/scrape \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://docs.firecrawl.dev",
"formats" : ["markdown", "html"]
}'
curl -X POST https://api.firecrawl.dev/v1/scrape \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://www.mendable.ai/",
"formats": ["json"],
"jsonOptions": {
"schema": {
"type": "object",
"properties": {
"company_mission": {"type": "string"},
"supports_sso": {"type": "boolean"},
"is_open_source": {"type": "boolean"},
"is_in_yc": {"type": "boolean"}
},
"required": ["company_mission", "supports_sso", "is_open_source", "is_in_yc"]
}
}
}'
pip install firecrawl-py
from firecrawl.firecrawl import FirecrawlApp
from firecrawl.firecrawl import ScrapeOptions
app = FirecrawlApp(api_key="fc-YOUR_API_KEY")
# 웹사이트 스크래핑
scrape_status = app.scrape_url(
'https://firecrawl.dev',
formats=["markdown", "html"]
)
print(scrape_status)
# 웹사이트 크롤링
crawl_status = app.crawl_url(
'https://firecrawl.dev',
limit=100,
scrape_options=ScrapeOptions(formats=["markdown", "html"]),
poll_interval=30
)
print(crawl_status)
npm install @mendable/firecrawl-js
import FirecrawlApp, { CrawlParams, CrawlStatusResponse } from '@mendable/firecrawl-js';
const app = new FirecrawlApp({apiKey: "fc-YOUR_API_KEY"});
// 웹사이트 스크래핑
const scrapeResponse = await app.scrapeUrl('https://firecrawl.dev', {
formats: ['markdown', 'html'],
});
if (scrapeResponse) {
console.log(scrapeResponse)
}
// 웹사이트 크롤링
const crawlResponse = await app.crawlUrl('https://firecrawl.dev', {
limit: 100,
scrapeOptions: {
formats: ['markdown', 'html'],
}
} satisfies CrawlParams, true, 30) satisfies CrawlStatusResponse;
Firecrawl을 사용하여 스크래핑, 검색 및 크롤링을 수행할 때 웹사이트 정책을 준수할 책임은 사용자에게 있습니다. 스크래핑 활동을 시작하기 전에 해당 웹사이트의 개인 정보 보호 정책 및 이용 약관을 준수하는 것이 좋습니다. 기본적으로 Firecrawl은 크롤링 시 웹사이트의 robots.txt 파일에 지정된 지침을 준수합니다.
이 프로젝트는 현재 활발히 개발 중이며, 팀은 사용자 정의 모듈을 모놀리식 저장소에 통합하고 있습니다. 자체 호스팅 배포에는 아직 완전히 준비되지 않았지만, 개발 및 테스트를 위해 로컬에서 실행할 수 있습니다. 이 프로젝트는 활발한 커뮤니티와 지속적인 업데이트를 통해 웹 데이터 추출 분야의 선도적인 솔루션입니다.