O Jina AI Reader é uma ferramenta de código aberto projetada para converter qualquer URL em um formato de entrada amigável para modelos de linguagem grandes (LLMs). Desenvolvido e mantido pela Jina AI, o projeto adota a licença de código aberto Apache-2.0, fornecendo serviços de extração de conteúdo web de alta qualidade para Agentes de IA e sistemas RAG (Geração Aumentada por Recuperação).
https://r.jina.ai/
antes de qualquer URL.URL Original: https://en.wikipedia.org/wiki/Artificial_intelligence
URL Convertido: https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
https://s.jina.ai/
antes da consulta.Consulta: Who will win 2024 US presidential election?
URL de Busca: https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
Image [idx]: [caption]
x-with-generated-alt: true
site=example.com
nos parâmetros da consulta.curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
# Ativar descrição de imagens
x-with-generated-alt: true
# Encaminhar configurações de Cookie
x-set-cookie: [cookie_string]
# Ignorar cache
x-no-cache: true
# Tolerância de cache personalizada (segundos)
x-cache-tolerance: [seconds]
# Especificar servidor proxy
x-proxy-url: [proxy_url]
# Seletor de elemento alvo
x-target-selector: [css_selector]
# Aguardar o aparecimento de um elemento específico
x-wait-for-selector: [css_selector]
# Definir tempo limite
x-timeout: [seconds]
# Retornar formato Markdown (ignorar filtro de legibilidade)
x-respond-with: markdown
# Retornar HTML original
x-respond-with: html
# Retornar texto puro
x-respond-with: text
# Retornar URL da captura de tela da página web
x-respond-with: screenshot
# Ativar modo de fluxo
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]
# Obter resposta em formato JSON
curl -H "Accept: application/json" https://r.jina.ai/[URL]
Estrutura da resposta JSON:
{
"url": "URL original",
"title": "Título da página",
"content": "Conteúdo extraído"
}
Devido à particularidade dos SPAs, as seguintes soluções são oferecidas:
Para URLs que contêm #
, use o método POST:
curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'
Para páginas web que exibem conteúdo de pré-carregamento:
curl 'https://example.com/' -H 'x-timeout: 30'
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/
O Jina AI Reader é uma ferramenta de código aberto poderosa, projetada especificamente para sistemas de IA modernos, resolvendo os problemas de formato e qualidade que os LLMs enfrentam ao processar conteúdo web. Através da simples adição de um prefixo de URL, é possível obter conteúdo web estruturado e de alta qualidade, sendo uma ferramenta ideal para construir Agentes de IA e sistemas RAG.