Home
Login

任意のURLをLLMフレンドリーな入力形式に変換するツール。ウェブコンテンツの抽出とスマート検索をサポート。

Apache-2.0TypeScript 8.9kjina-ai Last Updated: 2025-05-08

Jina AI Reader プロジェクト詳細

プロジェクト概要

Jina AI Readerは、任意のURLを大規模言語モデル(LLM)フレンドリーな入力形式に変換することを目的としたオープンソースツールです。Jina AIによって開発・メンテナンスされており、Apache-2.0オープンソースライセンスを採用し、AI AgentおよびRAG(検索拡張生成)システムに高品質なウェブコンテンツ抽出サービスを提供します。

核心機能

1. ウェブコンテンツ変換(Read機能)

  • 主要機能:任意のURLをLLMフレンドリーな入力形式に変換
  • 使用方法:任意のURLの前に https://r.jina.ai/ プレフィックスを追加
  • 元のURL: https://en.wikipedia.org/wiki/Artificial_intelligence
    変換後のURL: https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
    

2. スマートウェブ検索(Search機能)

  • 主要機能:クエリに基づいてウェブページを検索し、LLMフレンドリーな形式で結果を返す
  • 使用方法:クエリの前に https://s.jina.ai/ プレフィックスを追加
  • 動作原理:自動的にウェブページを検索し、上位5件の結果を取得し、各URLにアクセスしてコンテンツ変換を適用
  • クエリ: Who will win 2024 US presidential election?
    検索URL: https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
    

3. 高度な機能特性

画像認識と説明
  • 機能:altタグのない画像に対して自動的に説明を生成
  • 形式Image [idx]: [caption]
  • 有効化方法:リクエストヘッダー x-with-generated-alt: true を使用
PDFドキュメントサポート
  • 機能:PDFドキュメントを直接読み取り、解析
  • 更新日:2024年5月30日に追加された機能
サイト内検索
  • 機能:検索結果を特定のドメインまたはウェブサイトに制限
  • 使用方法:クエリパラメータで site=example.com を設定
  • curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
    

技術アーキテクチャ

サポートされるウェブページタイプ

  • 静的ウェブページ:従来のHTMLページ
  • シングルページアプリケーション(SPA):JavaScriptフレームワークに基づく最新のWebアプリケーション
  • 動的コンテンツ:クライアントサイドレンダリングに依存するウェブページ

基盤技術

  • レンダリングエンジン:PuppeteerとヘッドレスChromeブラウザに基づく
  • 開発言語:TypeScript
  • ライセンス:Apache-2.0

API構成オプション

リクエストヘッダー制御

基本構成
# 画像の説明を有効にする
x-with-generated-alt: true

# Cookie設定を転送する
x-set-cookie: [cookie_string]

# キャッシュをバイパスする
x-no-cache: true

# カスタムキャッシュ許容度(秒)
x-cache-tolerance: [seconds]
プロキシとセレクター
# プロキシサーバーを指定する
x-proxy-url: [proxy_url]

# ターゲット要素セレクター
x-target-selector: [css_selector]

# 特定の要素の出現を待つ
x-wait-for-selector: [css_selector]

# タイムアウト時間を設定する
x-timeout: [seconds]
応答形式制御
# Markdown形式で返す(可読性フィルタリングをバイパス)
x-respond-with: markdown

# 元のHTMLを返す
x-respond-with: html

# プレーンテキストを返す
x-respond-with: text

# ウェブページのスクリーンショットURLを返す
x-respond-with: screenshot

出力形式

ストリーミング出力
# ストリーミングモードを有効にする
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]
JSON形式
# JSON形式の応答を取得する
curl -H "Accept: application/json" https://r.jina.ai/[URL]

JSON応答構造:

{
  "url": "元のURL",
  "title": "ページタイトル", 
  "content": "抽出されたコンテンツ"
}

特殊なシナリオの処理

シングルページアプリケーション(SPA)のサポート

SPAの特殊性により、以下のソリューションを提供します。

ハッシュルーティング処理

# を含むURLの場合、POSTメソッドを使用します。

curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'
プリロードされたコンテンツの処理

プリロードされたコンテンツを表示するウェブページの場合:

  1. タイムアウトの指定
curl 'https://example.com/' -H 'x-timeout: 30'
  1. 特定の要素を待つ
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
  1. ストリーミングモードを使用する
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/

展開と使用

本番環境での使用

  • サービス状態:無料、安定、拡張可能な本番環境向けサービス
  • メンテナンス状態:Jina AIのコア製品の一つとして、積極的にメンテナンスされています
  • サービスアドレスhttps://r.jina.ai/ および https://s.jina.ai/

アプリケーションシナリオ

AI Agentシステム

  • AI Agentに構造化されたウェブコンテンツを提供
  • Agentによるウェブ情報の収集と分析をサポート
  • リアルタイムなウェブ検索機能を提供

RAGシステム

  • ウェブコンテンツをベクトルデータベースフレンドリーな形式に変換
  • 検索拡張生成の知識獲得をサポート
  • 高品質な外部知識ソースを提供

コンテンツ分析

  • ウェブコンテンツの抽出とクレンジング
  • マルチメディアコンテンツの理解(画像の説明)
  • ドキュメント形式の統一化

パフォーマンスと制限

応答性能

  • 処理時間:通常、URLを2秒以内に処理してコンテンツを返します
  • 複雑なページ:複雑または動的なページでは、より多くの時間が必要になる場合があります

使用制限

  • レート制限が存在します(具体的な制限については、公式ドキュメントを参照してください)
  • 返されるコンテンツは元の言語を保持し、翻訳サービスは提供しません

Jina AI Readerは、最新のAIシステム向けに設計された強力なオープンソースツールであり、LLMがウェブコンテンツを処理する際に直面する形式と品質の問題を解決します。単純なURLプレフィックスの追加により、高品質で構造化されたウェブコンテンツを取得でき、AI AgentおよびRAGシステムを構築するための理想的なツールです。