Jina AI Readerは、任意のURLを大規模言語モデル(LLM)フレンドリーな入力形式に変換することを目的としたオープンソースツールです。Jina AIによって開発・メンテナンスされており、Apache-2.0オープンソースライセンスを採用し、AI AgentおよびRAG(検索拡張生成)システムに高品質なウェブコンテンツ抽出サービスを提供します。
https://r.jina.ai/
プレフィックスを追加元のURL: https://en.wikipedia.org/wiki/Artificial_intelligence
変換後のURL: https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
https://s.jina.ai/
プレフィックスを追加クエリ: Who will win 2024 US presidential election?
検索URL: https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
Image [idx]: [caption]
x-with-generated-alt: true
を使用site=example.com
を設定curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
# 画像の説明を有効にする
x-with-generated-alt: true
# Cookie設定を転送する
x-set-cookie: [cookie_string]
# キャッシュをバイパスする
x-no-cache: true
# カスタムキャッシュ許容度(秒)
x-cache-tolerance: [seconds]
# プロキシサーバーを指定する
x-proxy-url: [proxy_url]
# ターゲット要素セレクター
x-target-selector: [css_selector]
# 特定の要素の出現を待つ
x-wait-for-selector: [css_selector]
# タイムアウト時間を設定する
x-timeout: [seconds]
# Markdown形式で返す(可読性フィルタリングをバイパス)
x-respond-with: markdown
# 元のHTMLを返す
x-respond-with: html
# プレーンテキストを返す
x-respond-with: text
# ウェブページのスクリーンショットURLを返す
x-respond-with: screenshot
# ストリーミングモードを有効にする
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]
# JSON形式の応答を取得する
curl -H "Accept: application/json" https://r.jina.ai/[URL]
JSON応答構造:
{
"url": "元のURL",
"title": "ページタイトル",
"content": "抽出されたコンテンツ"
}
SPAの特殊性により、以下のソリューションを提供します。
#
を含むURLの場合、POSTメソッドを使用します。
curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'
プリロードされたコンテンツを表示するウェブページの場合:
curl 'https://example.com/' -H 'x-timeout: 30'
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/
Jina AI Readerは、最新のAIシステム向けに設計された強力なオープンソースツールであり、LLMがウェブコンテンツを処理する際に直面する形式と品質の問題を解決します。単純なURLプレフィックスの追加により、高品質で構造化されたウェブコンテンツを取得でき、AI AgentおよびRAGシステムを構築するための理想的なツールです。