Jina AI Reader est un outil open source conçu pour convertir n'importe quelle URL en un format d'entrée adapté aux grands modèles de langage (LLM). Développé et maintenu par Jina AI, ce projet est sous licence open source Apache-2.0 et fournit des services d'extraction de contenu web de haute qualité pour les agents d'IA et les systèmes RAG (Retrieval-Augmented Generation - Génération Augmentée par la Recherche).
https://r.jina.ai/
devant n'importe quelle URL.URL originale : https://en.wikipedia.org/wiki/Artificial_intelligence
URL convertie : https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
https://s.jina.ai/
devant la requête.Requête : Who will win 2024 US presidential election?
URL de recherche : https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
Image [idx]: [caption]
x-with-generated-alt: true
site=example.com
dans les paramètres de la requête.curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
# Activer la description d'image
x-with-generated-alt: true
# Transférer les paramètres Cookie
x-set-cookie: [cookie_string]
# Contourner le cache
x-no-cache: true
# Tolérance de cache personnalisée (en secondes)
x-cache-tolerance: [seconds]
# Spécifier un serveur proxy
x-proxy-url: [proxy_url]
# Sélecteur d'élément cible
x-target-selector: [css_selector]
# Attendre l'apparition d'un élément spécifique
x-wait-for-selector: [css_selector]
# Définir un délai d'attente
x-timeout: [seconds]
# Renvoyer au format Markdown (contourner le filtrage de lisibilité)
x-respond-with: markdown
# Renvoyer le HTML original
x-respond-with: html
# Renvoyer du texte brut
x-respond-with: text
# Renvoyer l'URL d'une capture d'écran de la page web
x-respond-with: screenshot
# Activer le mode flux continu
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]
# Obtenir une réponse au format JSON
curl -H "Accept: application/json" https://r.jina.ai/[URL]
Structure de la réponse JSON :
{
"url": "URL originale",
"title": "Titre de la page",
"content": "Contenu extrait"
}
En raison de la spécificité des SPA, les solutions suivantes sont proposées :
Pour les URL contenant #
, utiliser la méthode POST :
curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'
Pour les pages web affichant du contenu préchargé :
curl 'https://example.com/' -H 'x-timeout: 30'
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/
Jina AI Reader est un outil open source puissant, spécialement conçu pour les systèmes d'IA modernes, qui résout les problèmes de format et de qualité rencontrés par les LLM lors du traitement du contenu web. En ajoutant simplement un préfixe à l'URL, il est possible d'obtenir un contenu web structuré et de haute qualité, ce qui en fait l'outil idéal pour la construction d'agents d'IA et de systèmes RAG.