Jina AI Reader는 임의의 URL을 대규모 언어 모델(LLM)에 친숙한 입력 형식으로 변환하는 오픈 소스 도구입니다. 이 프로젝트는 Jina AI에서 개발 및 유지 관리하며, Apache-2.0 오픈 소스 라이선스를 채택하여 AI Agent 및 RAG(검색 증강 생성) 시스템에 고품질의 웹 페이지 콘텐츠 추출 서비스를 제공합니다.
https://r.jina.ai/
접두사 추가원본 URL: https://en.wikipedia.org/wiki/Artificial_intelligence
변환 URL: https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
https://s.jina.ai/
접두사 추가쿼리: Who will win 2024 US presidential election?
검색 URL: https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
Image [idx]: [caption]
x-with-generated-alt: true
사용site=example.com
설정curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
# 이미지 설명 활성화
x-with-generated-alt: true
# Cookie 설정 전달
x-set-cookie: [cookie_string]
# 캐시 우회
x-no-cache: true
# 사용자 정의 캐시 허용 오차 (초)
x-cache-tolerance: [seconds]
# 프록시 서버 지정
x-proxy-url: [proxy_url]
# 대상 요소 선택기
x-target-selector: [css_selector]
# 특정 요소가 나타날 때까지 대기
x-wait-for-selector: [css_selector]
# 타임아웃 시간 설정
x-timeout: [seconds]
# Markdown 형식으로 반환 (가독성 필터링 우회)
x-respond-with: markdown
# 원본 HTML 반환
x-respond-with: html
# 순수 텍스트 반환
x-respond-with: text
# 웹 페이지 스크린샷 URL 반환
x-respond-with: screenshot
# 스트리밍 모드 활성화
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]
# JSON 형식 응답 획득
curl -H "Accept: application/json" https://r.jina.ai/[URL]
JSON 응답 구조:
{
"url": "원본 URL",
"title": "페이지 제목",
"content": "추출된 내용"
}
SPA의 특수성으로 인해 다음과 같은 솔루션 제공:
#
을 포함하는 URL의 경우, POST 메서드 사용:
curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'
프리로딩 콘텐츠를 표시하는 웹 페이지의 경우:
curl 'https://example.com/' -H 'x-timeout: 30'
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/
Jina AI Reader는 현대적인 AI 시스템을 위해 특별히 설계된 강력한 오픈 소스 도구로, LLM이 웹 페이지 콘텐츠를 처리할 때 직면하는 형식 및 품질 문제를 해결합니다. 간단한 URL 접두사 추가를 통해 고품질의 구조화된 웹 페이지 콘텐츠를 얻을 수 있으며, AI Agent 및 RAG 시스템 구축에 이상적인 도구입니다.