Home
Login

Un outil qui convertit n'importe quelle URL en un format d'entrée convivial pour les LLM, avec extraction de contenu web et recherche intelligente.

Apache-2.0TypeScript 8.9kjina-ai Last Updated: 2025-05-08

Présentation détaillée du projet Jina AI Reader

Aperçu du projet

Jina AI Reader est un outil open source conçu pour convertir n'importe quelle URL en un format d'entrée adapté aux grands modèles de langage (LLM). Développé et maintenu par Jina AI, ce projet est sous licence open source Apache-2.0 et fournit des services d'extraction de contenu web de haute qualité pour les agents d'IA et les systèmes RAG (Retrieval-Augmented Generation - Génération Augmentée par la Recherche).

Fonctionnalités principales

1. Conversion de contenu web (Fonctionnalité Read)

  • Fonction principale : Convertir n'importe quelle URL en un format d'entrée adapté aux LLM.
  • Mode d'utilisation : Ajouter le préfixe https://r.jina.ai/ devant n'importe quelle URL.
  • Exemple :
    URL originale : https://en.wikipedia.org/wiki/Artificial_intelligence
    URL convertie : https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
    

2. Recherche web intelligente (Fonctionnalité Search)

  • Fonction principale : Rechercher des pages web en fonction d'une requête et renvoyer les résultats dans un format adapté aux LLM.
  • Mode d'utilisation : Ajouter le préfixe https://s.jina.ai/ devant la requête.
  • Principe de fonctionnement : Recherche automatique de pages web, obtention des 5 premiers résultats, accès à chaque URL et application de la conversion de contenu.
  • Exemple :
    Requête : Who will win 2024 US presidential election?
    URL de recherche : https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
    

3. Fonctionnalités avancées

Reconnaissance et description d'images

  • Fonction : Générer automatiquement des descriptions pour les images sans balise alt.
  • Format : Image [idx]: [caption]
  • Activation : Utiliser l'en-tête de requête x-with-generated-alt: true

Prise en charge des documents PDF

  • Fonction : Lecture et analyse directes des documents PDF.
  • Date d'ajout : Nouvelle fonctionnalité ajoutée le 30 mai 2024.

Recherche interne au site

  • Fonction : Limiter les résultats de recherche à un domaine ou un site web spécifique.
  • Mode d'utilisation : Définir site=example.com dans les paramètres de la requête.
  • Exemple :
    curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
    

Architecture technique

Types de pages web pris en charge

  • Pages web statiques : Pages HTML traditionnelles.
  • Applications monopages (SPA) : Applications web modernes basées sur des frameworks JavaScript.
  • Contenu dynamique : Pages web dépendant du rendu côté client.

Technologies sous-jacentes

  • Moteur de rendu : Basé sur Puppeteer et un navigateur Chrome sans interface graphique (headless).
  • Langage de développement : TypeScript
  • Licence : Apache-2.0

Options de configuration de l'API

Contrôle des en-têtes de requête

Configuration de base

# Activer la description d'image
x-with-generated-alt: true

# Transférer les paramètres Cookie
x-set-cookie: [cookie_string]

# Contourner le cache
x-no-cache: true

# Tolérance de cache personnalisée (en secondes)
x-cache-tolerance: [seconds]

Proxy et sélecteurs

# Spécifier un serveur proxy
x-proxy-url: [proxy_url]

# Sélecteur d'élément cible
x-target-selector: [css_selector]

# Attendre l'apparition d'un élément spécifique
x-wait-for-selector: [css_selector]

# Définir un délai d'attente
x-timeout: [seconds]

Contrôle du format de réponse

# Renvoyer au format Markdown (contourner le filtrage de lisibilité)
x-respond-with: markdown

# Renvoyer le HTML original
x-respond-with: html

# Renvoyer du texte brut
x-respond-with: text

# Renvoyer l'URL d'une capture d'écran de la page web
x-respond-with: screenshot

Format de sortie

Sortie en flux continu (streaming)

# Activer le mode flux continu
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]

Format JSON

# Obtenir une réponse au format JSON
curl -H "Accept: application/json" https://r.jina.ai/[URL]

Structure de la réponse JSON :

{
  "url": "URL originale",
  "title": "Titre de la page",
  "content": "Contenu extrait"
}

Traitement des cas particuliers

Prise en charge des applications monopages (SPA)

En raison de la spécificité des SPA, les solutions suivantes sont proposées :

Gestion des routes avec hachage

Pour les URL contenant #, utiliser la méthode POST :

curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'

Traitement du contenu préchargé

Pour les pages web affichant du contenu préchargé :

  1. Spécifier un délai d'attente :
curl 'https://example.com/' -H 'x-timeout: 30'
  1. Attendre un élément spécifique :
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
  1. Utiliser le mode flux continu :
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/

Déploiement et utilisation

Utilisation en environnement de production

  • État du service : Service de niveau production gratuit, stable et évolutif.
  • État de la maintenance : Activement maintenu en tant que l'un des produits principaux de Jina AI.
  • Adresses du service : https://r.jina.ai/ et https://s.jina.ai/

Cas d'utilisation

Systèmes d'agents d'IA

  • Fournir un contenu web structuré aux agents d'IA.
  • Permettre aux agents de collecter et d'analyser des informations sur le web.
  • Fournir une capacité de recherche web en temps réel.

Systèmes RAG

  • Convertir le contenu web en un format adapté aux bases de données vectorielles.
  • Soutenir l'acquisition de connaissances pour la génération augmentée par la recherche.
  • Fournir des sources de connaissances externes de haute qualité.

Analyse de contenu

  • Extraction et nettoyage du contenu web.
  • Compréhension du contenu multimédia (description d'images).
  • Uniformisation des formats de documents.

Performances et limitations

Performance de la réponse

  • Temps de traitement : Traitement de l'URL et renvoi du contenu généralement en moins de 2 secondes.
  • Pages complexes : Les pages complexes ou dynamiques peuvent nécessiter plus de temps.

Limitations d'utilisation

  • Il existe une limitation de débit (consulter la documentation officielle pour plus de détails).
  • Le contenu renvoyé conserve la langue d'origine, aucun service de traduction n'est fourni.

Jina AI Reader est un outil open source puissant, spécialement conçu pour les systèmes d'IA modernes, qui résout les problèmes de format et de qualité rencontrés par les LLM lors du traitement du contenu web. En ajoutant simplement un préfixe à l'URL, il est possible d'obtenir un contenu web structuré et de haute qualité, ce qui en fait l'outil idéal pour la construction d'agents d'IA et de systèmes RAG.