Home
Login

Una herramienta que convierte cualquier URL en un formato de entrada amigable para LLM, con soporte para la extracción de contenido web y la búsqueda inteligente.

Apache-2.0TypeScript 8.9kjina-ai Last Updated: 2025-05-08

Descripción Detallada del Proyecto Jina AI Reader

Resumen del Proyecto

Jina AI Reader es una herramienta de código abierto diseñada para convertir cualquier URL en un formato de entrada amigable para modelos de lenguaje grandes (LLM). Desarrollado y mantenido por Jina AI, este proyecto utiliza la licencia de código abierto Apache-2.0 y proporciona servicios de extracción de contenido web de alta calidad para agentes de IA y sistemas RAG (Generación Aumentada por Recuperación).

Funciones Principales

1. Conversión de Contenido Web (Función Read)

  • Función Principal: Convierte cualquier URL en un formato de entrada amigable para LLM.
  • Modo de Uso: Agregue el prefijo https://r.jina.ai/ a cualquier URL.
  • Ejemplo:
    URL Original: https://en.wikipedia.org/wiki/Artificial_intelligence
    URL Convertida: https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
    

2. Búsqueda Inteligente en la Web (Función Search)

  • Función Principal: Busca páginas web basadas en una consulta y devuelve los resultados en un formato amigable para LLM.
  • Modo de Uso: Agregue el prefijo https://s.jina.ai/ a la consulta.
  • Funcionamiento: Busca automáticamente páginas web, obtiene los primeros 5 resultados, accede a cada URL y aplica la conversión de contenido.
  • Ejemplo:
    Consulta: Who will win 2024 US presidential election?
    URL de Búsqueda: https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
    

3. Características Avanzadas

Reconocimiento y Descripción de Imágenes

  • Función: Genera automáticamente descripciones para imágenes que carecen de etiquetas alt.
  • Formato: Image [idx]: [caption]
  • Activación: Utilice el encabezado de solicitud x-with-generated-alt: true

Soporte para Documentos PDF

  • Función: Lee y analiza directamente documentos PDF.
  • Fecha de Actualización: Nueva función añadida el 30 de mayo de 2024.

Búsqueda Dentro del Sitio

  • Función: Limita los resultados de búsqueda a un dominio o sitio web específico.
  • Modo de Uso: Configure site=example.com en los parámetros de consulta.
  • Ejemplo:
    curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
    

Arquitectura Técnica

Tipos de Páginas Web Soportadas

  • Páginas Web Estáticas: Páginas HTML tradicionales.
  • Aplicaciones de Página Única (SPA): Aplicaciones web modernas basadas en frameworks de JavaScript.
  • Contenido Dinámico: Páginas web que dependen del renderizado del lado del cliente.

Tecnología Subyacente

  • Motor de Renderizado: Basado en Puppeteer y un navegador Chrome sin interfaz gráfica (headless).
  • Lenguaje de Desarrollo: TypeScript
  • Licencia: Apache-2.0

Opciones de Configuración de la API

Control de Encabezados de Solicitud

Configuración Básica

# Activar la descripción de imágenes
x-with-generated-alt: true

# Reenviar la configuración de cookies
x-set-cookie: [cookie_string]

# Evitar la caché
x-no-cache: true

# Tolerancia de caché personalizada (segundos)
x-cache-tolerance: [seconds]

Proxy y Selectores

# Especificar un servidor proxy
x-proxy-url: [proxy_url]

# Selector de elemento objetivo
x-target-selector: [css_selector]

# Esperar a que aparezca un elemento específico
x-wait-for-selector: [css_selector]

# Establecer el tiempo de espera
x-timeout: [seconds]

Control del Formato de Respuesta

# Devolver formato Markdown (evitando el filtrado de legibilidad)
x-respond-with: markdown

# Devolver HTML original
x-respond-with: html

# Devolver texto plano
x-respond-with: text

# Devolver la URL de la captura de pantalla de la página web
x-respond-with: screenshot

Formato de Salida

Salida en Flujo (Streaming)

# Activar el modo de flujo
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]

Formato JSON

# Obtener respuesta en formato JSON
curl -H "Accept: application/json" https://r.jina.ai/[URL]

Estructura de respuesta JSON:

{
  "url": "URL original",
  "title": "Título de la página", 
  "content": "Contenido extraído"
}

Manejo de Escenarios Especiales

Soporte para Aplicaciones de Página Única (SPA)

Debido a la particularidad de las SPA, se ofrecen las siguientes soluciones:

Manejo de Rutas Hash

Para las URL que contienen #, utilice el método POST:

curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'

Manejo de Contenido de Pre-carga

Para páginas web que muestran contenido de pre-carga:

  1. Especificar un tiempo de espera:
curl 'https://example.com/' -H 'x-timeout: 30'
  1. Esperar un elemento específico:
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
  1. Usar el modo de flujo:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/

Despliegue y Uso

Uso en Entorno de Producción

  • Estado del Servicio: Servicio de nivel de producción gratuito, estable y escalable.
  • Estado de Mantenimiento: Se mantiene activamente como uno de los productos principales de Jina AI.
  • Direcciones del Servicio: https://r.jina.ai/ y https://s.jina.ai/

Casos de Uso

Sistemas de Agentes de IA

  • Proporciona contenido web estructurado para agentes de IA.
  • Permite a los agentes recopilar y analizar información web.
  • Ofrece capacidades de búsqueda web en tiempo real.

Sistemas RAG

  • Convierte el contenido web en un formato amigable para bases de datos vectoriales.
  • Admite la adquisición de conocimiento para la generación aumentada por recuperación.
  • Proporciona fuentes de conocimiento externas de alta calidad.

Análisis de Contenido

  • Extracción y limpieza de contenido web.
  • Comprensión de contenido multimedia (descripción de imágenes).
  • Unificación del formato de documentos.

Rendimiento y Limitaciones

Rendimiento de la Respuesta

  • Tiempo de Procesamiento: Generalmente procesa la URL y devuelve el contenido en 2 segundos.
  • Páginas Complejas: Las páginas complejas o dinámicas pueden requerir más tiempo.

Limitaciones de Uso

  • Existen límites de velocidad (consulte la documentación oficial para obtener detalles).
  • El contenido devuelto conserva el idioma original, no se ofrece servicio de traducción.

Jina AI Reader es una potente herramienta de código abierto, diseñada específicamente para sistemas de IA modernos, que resuelve los problemas de formato y calidad que enfrentan los LLM al procesar contenido web. Con la simple adición de un prefijo de URL, se puede obtener contenido web estructurado y de alta calidad, lo que lo convierte en una herramienta ideal para construir agentes de IA y sistemas RAG.