Home
Login

Uma ferramenta que converte qualquer URL em um formato de entrada amigável para LLMs, com suporte para extração de conteúdo da web e pesquisa inteligente.

Apache-2.0TypeScript 8.9kjina-ai Last Updated: 2025-05-08

Apresentação Detalhada do Projeto Jina AI Reader

Visão Geral do Projeto

O Jina AI Reader é uma ferramenta de código aberto projetada para converter qualquer URL em um formato de entrada amigável para modelos de linguagem grandes (LLMs). Desenvolvido e mantido pela Jina AI, o projeto adota a licença de código aberto Apache-2.0, fornecendo serviços de extração de conteúdo web de alta qualidade para Agentes de IA e sistemas RAG (Geração Aumentada por Recuperação).

Funcionalidades Principais

1. Conversão de Conteúdo Web (Função Read)

  • Funcionalidade Principal: Converter qualquer URL em um formato de entrada amigável para LLMs.
  • Como Usar: Adicione o prefixo https://r.jina.ai/ antes de qualquer URL.
  • Exemplo:
    URL Original: https://en.wikipedia.org/wiki/Artificial_intelligence
    URL Convertido: https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
    

2. Busca Inteligente na Web (Função Search)

  • Funcionalidade Principal: Pesquisar páginas web com base em uma consulta e retornar os resultados em um formato amigável para LLMs.
  • Como Usar: Adicione o prefixo https://s.jina.ai/ antes da consulta.
  • Como Funciona: Pesquisa automaticamente páginas web, obtém os 5 primeiros resultados, acessa cada URL e aplica a conversão de conteúdo.
  • Exemplo:
    Consulta: Who will win 2024 US presidential election?
    URL de Busca: https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
    

3. Funcionalidades Avançadas

Reconhecimento e Descrição de Imagens

  • Funcionalidade: Gerar automaticamente descrições para imagens que não possuem tags alt.
  • Formato: Image [idx]: [caption]
  • Como Ativar: Use o cabeçalho de requisição x-with-generated-alt: true

Suporte a Documentos PDF

  • Funcionalidade: Ler e analisar documentos PDF diretamente.
  • Data de Atualização: Funcionalidade adicionada em 30 de maio de 2024.

Busca Interna em Sites

  • Funcionalidade: Restringir os resultados da busca a um domínio ou site específico.
  • Como Usar: Defina site=example.com nos parâmetros da consulta.
  • Exemplo:
    curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
    

Arquitetura Técnica

Tipos de Páginas Web Suportadas

  • Páginas Web Estáticas: Páginas HTML tradicionais.
  • Aplicativos de Página Única (SPA): Aplicações web modernas baseadas em frameworks JavaScript.
  • Conteúdo Dinâmico: Páginas web que dependem da renderização do lado do cliente.

Tecnologias Subjacentes

  • Motor de Renderização: Baseado em Puppeteer e navegador Chrome sem interface gráfica (headless).
  • Linguagem de Desenvolvimento: TypeScript
  • Licença: Apache-2.0

Opções de Configuração da API

Controle de Cabeçalhos de Requisição

Configuração Básica

# Ativar descrição de imagens
x-with-generated-alt: true

# Encaminhar configurações de Cookie
x-set-cookie: [cookie_string]

# Ignorar cache
x-no-cache: true

# Tolerância de cache personalizada (segundos)
x-cache-tolerance: [seconds]

Proxy e Seletor

# Especificar servidor proxy
x-proxy-url: [proxy_url]

# Seletor de elemento alvo
x-target-selector: [css_selector]

# Aguardar o aparecimento de um elemento específico
x-wait-for-selector: [css_selector]

# Definir tempo limite
x-timeout: [seconds]

Controle de Formato de Resposta

# Retornar formato Markdown (ignorar filtro de legibilidade)
x-respond-with: markdown

# Retornar HTML original
x-respond-with: html

# Retornar texto puro
x-respond-with: text

# Retornar URL da captura de tela da página web
x-respond-with: screenshot

Formato de Saída

Saída em Fluxo (Streaming)

# Ativar modo de fluxo
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]

Formato JSON

# Obter resposta em formato JSON
curl -H "Accept: application/json" https://r.jina.ai/[URL]

Estrutura da resposta JSON:

{
  "url": "URL original",
  "title": "Título da página", 
  "content": "Conteúdo extraído"
}

Tratamento de Cenários Especiais

Suporte a Aplicativos de Página Única (SPA)

Devido à particularidade dos SPAs, as seguintes soluções são oferecidas:

Tratamento de Rotas Hash

Para URLs que contêm #, use o método POST:

curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'

Tratamento de Conteúdo de Pré-carregamento

Para páginas web que exibem conteúdo de pré-carregamento:

  1. Especificar tempo limite de espera:
curl 'https://example.com/' -H 'x-timeout: 30'
  1. Aguardar um elemento específico:
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
  1. Usar o modo de fluxo:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/

Implantação e Uso

Uso em Ambiente de Produção

  • Status do Serviço: Serviço de nível de produção gratuito, estável e escalável.
  • Status de Manutenção: Sendo ativamente mantido como um dos principais produtos da Jina AI.
  • Endereços do Serviço: https://r.jina.ai/ e https://s.jina.ai/

Casos de Uso

Sistemas de Agentes de IA

  • Fornecer conteúdo web estruturado para Agentes de IA.
  • Suportar Agentes na coleta e análise de informações da web.
  • Fornecer capacidade de busca na web em tempo real.

Sistemas RAG

  • Converter conteúdo web em um formato amigável para bancos de dados vetoriais.
  • Suportar a aquisição de conhecimento para geração aumentada por recuperação.
  • Fornecer fontes de conhecimento externas de alta qualidade.

Análise de Conteúdo

  • Extração e limpeza de conteúdo web.
  • Compreensão de conteúdo multimídia (descrição de imagens).
  • Uniformização de formatos de documentos.

Desempenho e Limitações

Desempenho de Resposta

  • Tempo de Processamento: Normalmente processa URLs e retorna o conteúdo em até 2 segundos.
  • Páginas Complexas: Páginas complexas ou dinâmicas podem exigir mais tempo.

Limitações de Uso

  • Existem limites de taxa (verifique a documentação oficial para obter detalhes).
  • O conteúdo retornado mantém o idioma original, não oferece serviços de tradução.

O Jina AI Reader é uma ferramenta de código aberto poderosa, projetada especificamente para sistemas de IA modernos, resolvendo os problemas de formato e qualidade que os LLMs enfrentam ao processar conteúdo web. Através da simples adição de um prefixo de URL, é possível obter conteúdo web estruturado e de alta qualidade, sendo uma ferramenta ideal para construir Agentes de IA e sistemas RAG.