Home
Login

Ein Tool, das jede beliebige URL in ein LLM-freundliches Eingabeformat umwandelt und die Extraktion von Webinhalten sowie intelligente Suche unterstützt.

Apache-2.0TypeScript 8.9kjina-ai Last Updated: 2025-05-08

Jina AI Reader Projekt – Detaillierte Beschreibung

Projektübersicht

Jina AI Reader ist ein Open-Source-Tool, das darauf abzielt, beliebige URLs in ein LLM-freundliches (Large Language Model) Eingabeformat zu konvertieren. Das Projekt wird von Jina AI entwickelt und gewartet und unter der Apache-2.0-Open-Source-Lizenz vertrieben. Es bietet hochwertige Web-Content-Extraktionsdienste für AI Agents und RAG-Systeme (Retrieval-Augmented Generation).

Kernfunktionen

1. Web-Content-Konvertierung (Read-Funktion)

  • Hauptfunktion: Konvertiert jede URL in ein LLM-freundliches Eingabeformat
  • Verwendung: Fügen Sie der URL das Präfix https://r.jina.ai/ hinzu
  • Beispiel:
    Original-URL: https://en.wikipedia.org/wiki/Artificial_intelligence
    Konvertierte URL: https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
    

2. Intelligente Web-Suche (Search-Funktion)

  • Hauptfunktion: Durchsucht Webseiten basierend auf einer Anfrage und gibt die Ergebnisse in einem LLM-freundlichen Format zurück
  • Verwendung: Fügen Sie der Anfrage das Präfix https://s.jina.ai/ hinzu
  • Funktionsweise: Durchsucht automatisch Webseiten, ruft die ersten 5 Ergebnisse ab, greift auf jede URL zu und wendet die Content-Konvertierung an
  • Beispiel:
    Anfrage: Who will win 2024 US presidential election?
    Such-URL: https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
    

3. Erweiterte Funktionen

Bilderkennung und -beschreibung

  • Funktion: Generiert automatisch Beschreibungen für Bilder ohne Alt-Tags
  • Format: Image [idx]: [caption]
  • Aktivierung: Verwenden Sie den Request-Header x-with-generated-alt: true

PDF-Dokumentenunterstützung

  • Funktion: Liest und analysiert PDF-Dokumente direkt
  • Aktualisiert am: 30. Mai 2024 (neue Funktion)

Site-interne Suche

  • Funktion: Beschränkt die Suchergebnisse auf eine bestimmte Domain oder Website
  • Verwendung: Setzen Sie den Parameter site=example.com in der Anfrage
  • Beispiel:
    curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
    

Technische Architektur

Unterstützte Webseitentypen

  • Statische Webseiten: Traditionelle HTML-Seiten
  • Single-Page-Anwendungen (SPA): Moderne Webanwendungen basierend auf JavaScript-Frameworks
  • Dynamischer Inhalt: Webseiten, die auf clientseitigem Rendering basieren

Basistechnologien

  • Rendering-Engine: Basiert auf Puppeteer und einem Headless Chrome-Browser
  • Entwicklungssprache: TypeScript
  • Lizenz: Apache-2.0

API-Konfigurationsoptionen

Request-Header-Steuerung

Basiskonfiguration

# Bildbeschreibungen aktivieren
x-with-generated-alt: true

# Cookie-Einstellungen weiterleiten
x-set-cookie: [cookie_string]

# Cache umgehen
x-no-cache: true

# Benutzerdefinierte Cache-Toleranz (Sekunden)
x-cache-tolerance: [seconds]

Proxy und Selektoren

# Proxy-Server angeben
x-proxy-url: [proxy_url]

# Ziel-Element-Selektor
x-target-selector: [css_selector]

# Warten auf das Erscheinen eines bestimmten Elements
x-wait-for-selector: [css_selector]

# Timeout festlegen
x-timeout: [seconds]

Steuerung des Antwortformats

# Markdown-Format zurückgeben (Lesbarkeitsfilter umgehen)
x-respond-with: markdown

# Original-HTML zurückgeben
x-respond-with: html

# Nur Text zurückgeben
x-respond-with: text

# URL des Webseiten-Screenshots zurückgeben
x-respond-with: screenshot

Ausgabeformat

Streaming-Ausgabe

# Streaming-Modus aktivieren
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]

JSON-Format

# JSON-Formatierte Antwort erhalten
curl -H "Accept: application/json" https://r.jina.ai/[URL]

JSON-Antwortstruktur:

{
  "url": "Original-URL",
  "title": "Seitentitel",
  "content": "Extrahierter Inhalt"
}

Behandlung spezieller Szenarien

Unterstützung von Single-Page-Anwendungen (SPA)

Aufgrund der Besonderheiten von SPAs werden folgende Lösungen angeboten:

Hash-Routing-Behandlung

Für URLs, die # enthalten, verwenden Sie die POST-Methode:

curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'

Behandlung von vorab geladenen Inhalten

Für Webseiten, die vorab geladene Inhalte anzeigen:

  1. Timeout-Wartezeit angeben:
curl 'https://example.com/' -H 'x-timeout: 30'
  1. Auf ein bestimmtes Element warten:
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
  1. Streaming-Modus verwenden:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/

Bereitstellung und Verwendung

Verwendung in der Produktionsumgebung

  • Servicestatus: Kostenloser, stabiler und skalierbarer Service in Produktionsqualität
  • Wartungsstatus: Wird als eines der Kernprodukte von Jina AI aktiv gewartet
  • Serviceadressen: https://r.jina.ai/ und https://s.jina.ai/

Anwendungsfälle

AI Agent-Systeme

  • Bereitstellung von strukturiertem Web-Content für AI Agents
  • Unterstützung von Agents bei der Sammlung und Analyse von Web-Informationen
  • Bereitstellung von Echtzeit-Websuchfunktionen

RAG-Systeme

  • Konvertierung von Web-Content in ein Vektor-Datenbank-freundliches Format
  • Unterstützung der Wissensbeschaffung durch Retrieval-Augmented Generation
  • Bereitstellung hochwertiger externer Wissensquellen

Content-Analyse

  • Extraktion und Bereinigung von Web-Content
  • Verständnis von Multimedia-Inhalten (Bildbeschreibungen)
  • Vereinheitlichung von Dokumentformaten

Leistung und Einschränkungen

Antwortleistung

  • Verarbeitungszeit: Verarbeitet URLs in der Regel innerhalb von 2 Sekunden und gibt den Inhalt zurück
  • Komplexe Seiten: Komplexe oder dynamische Seiten benötigen möglicherweise mehr Zeit

Nutzungsbeschränkungen

  • Es gibt Ratenbegrenzungen (genaue Beschränkungen finden Sie in der offiziellen Dokumentation)
  • Der zurückgegebene Inhalt behält die Originalsprache bei, es werden keine Übersetzungsdienste angeboten

Jina AI Reader ist ein leistungsstarkes Open-Source-Tool, das speziell für moderne KI-Systeme entwickelt wurde und die Format- und Qualitätsprobleme löst, mit denen LLMs bei der Verarbeitung von Web-Content konfrontiert sind. Durch einfaches Hinzufügen eines URL-Präfixes erhalten Sie hochwertigen, strukturierten Web-Content, der ein ideales Werkzeug für den Aufbau von AI Agents und RAG-Systemen ist.