Jina AI Reader es una herramienta de código abierto diseñada para convertir cualquier URL en un formato de entrada amigable para modelos de lenguaje grandes (LLM). Desarrollado y mantenido por Jina AI, este proyecto utiliza la licencia de código abierto Apache-2.0 y proporciona servicios de extracción de contenido web de alta calidad para agentes de IA y sistemas RAG (Generación Aumentada por Recuperación).
https://r.jina.ai/
a cualquier URL.URL Original: https://en.wikipedia.org/wiki/Artificial_intelligence
URL Convertida: https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
https://s.jina.ai/
a la consulta.Consulta: Who will win 2024 US presidential election?
URL de Búsqueda: https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
Image [idx]: [caption]
x-with-generated-alt: true
site=example.com
en los parámetros de consulta.curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
# Activar la descripción de imágenes
x-with-generated-alt: true
# Reenviar la configuración de cookies
x-set-cookie: [cookie_string]
# Evitar la caché
x-no-cache: true
# Tolerancia de caché personalizada (segundos)
x-cache-tolerance: [seconds]
# Especificar un servidor proxy
x-proxy-url: [proxy_url]
# Selector de elemento objetivo
x-target-selector: [css_selector]
# Esperar a que aparezca un elemento específico
x-wait-for-selector: [css_selector]
# Establecer el tiempo de espera
x-timeout: [seconds]
# Devolver formato Markdown (evitando el filtrado de legibilidad)
x-respond-with: markdown
# Devolver HTML original
x-respond-with: html
# Devolver texto plano
x-respond-with: text
# Devolver la URL de la captura de pantalla de la página web
x-respond-with: screenshot
# Activar el modo de flujo
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]
# Obtener respuesta en formato JSON
curl -H "Accept: application/json" https://r.jina.ai/[URL]
Estructura de respuesta JSON:
{
"url": "URL original",
"title": "Título de la página",
"content": "Contenido extraído"
}
Debido a la particularidad de las SPA, se ofrecen las siguientes soluciones:
Para las URL que contienen #
, utilice el método POST:
curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'
Para páginas web que muestran contenido de pre-carga:
curl 'https://example.com/' -H 'x-timeout: 30'
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/
Jina AI Reader es una potente herramienta de código abierto, diseñada específicamente para sistemas de IA modernos, que resuelve los problemas de formato y calidad que enfrentan los LLM al procesar contenido web. Con la simple adición de un prefijo de URL, se puede obtener contenido web estructurado y de alta calidad, lo que lo convierte en una herramienta ideal para construir agentes de IA y sistemas RAG.