Home
Login

一款將任意 URL 轉換為 LLM 友善輸入格式的工具,支援網頁內容提取和智慧搜尋

Apache-2.0TypeScript 8.9kjina-ai Last Updated: 2025-05-08

Jina AI Reader 項目詳細介紹

項目概述

Jina AI Reader 是一個開源工具,旨在將任意 URL 轉換為大語言模型(LLM)友好的輸入格式。該項目由 Jina AI 開發和維護,採用 Apache-2.0 開源許可證,為 AI Agent 和 RAG(檢索增強生成)系統提供高品質的網頁內容提取服務。

核心功能

1. 網頁內容轉換(Read 功能)

  • 主要功能:將任何 URL 轉換為 LLM 友好的輸入格式
  • 使用方式:在任意 URL 前添加 https://r.jina.ai/ 前綴
  • 示例
    原始 URL: https://en.wikipedia.org/wiki/Artificial_intelligence
    轉換 URL: https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
    

2. 智能網頁搜索(Search 功能)

  • 主要功能:基於查詢搜索網頁並返回 LLM 友好格式的結果
  • 使用方式:在查詢前添加 https://s.jina.ai/ 前綴
  • 工作原理:自動搜索網頁、獲取前 5 個結果、訪問每個 URL 並應用內容轉換
  • 示例
    查詢: Who will win 2024 US presidential election?
    搜索 URL: https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
    

3. 高級功能特性

圖片識別與描述

  • 功能:自動為缺少 alt 標籤的圖片生成描述
  • 格式Image [idx]: [caption]
  • 啟用方式:使用請求頭 x-with-generated-alt: true

PDF 文件支持

  • 功能:直接讀取和解析 PDF 文件
  • 更新時間:2024 年 5 月 30 日新增功能

站內搜索

  • 功能:限制搜索結果到特定域名或網站
  • 使用方式:在查詢參數中設置 site=example.com
  • 示例
    curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
    

技術架構

支持的網頁類型

  • 靜態網頁:傳統 HTML 頁面
  • 單頁應用(SPA):基於 JavaScript 框架的現代 Web 應用
  • 動態內容:依賴客戶端渲染的網頁

底層技術

  • 渲染引擎:基於 Puppeteer 和無頭 Chrome 瀏覽器
  • 開發語言:TypeScript
  • 許可證:Apache-2.0

API 配置選項

請求頭控制

基礎配置

# 啟用圖片描述
x-with-generated-alt: true

# 轉發 Cookie 設置
x-set-cookie: [cookie_string]

# 繞過緩存
x-no-cache: true

# 自定義緩存容忍度(秒)
x-cache-tolerance: [seconds]

代理和選擇器

# 指定代理伺服器
x-proxy-url: [proxy_url]

# 目標元素選擇器
x-target-selector: [css_selector]

# 等待特定元素出現
x-wait-for-selector: [css_selector]

# 設置超時時間
x-timeout: [seconds]

響應格式控制

# 返回 Markdown 格式(繞過可讀性過濾)
x-respond-with: markdown

# 返回原始 HTML
x-respond-with: html

# 返回純文本
x-respond-with: text

# 返回網頁截圖 URL
x-respond-with: screenshot

輸出格式

流式輸出

# 啟用流式模式
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]

JSON 格式

# 獲取 JSON 格式響應
curl -H "Accept: application/json" https://r.jina.ai/[URL]

JSON 響應結構:

{
  "url": "原始 URL",
  "title": "頁面標題", 
  "content": "提取的內容"
}

特殊場景處理

單頁應用(SPA)支持

由於 SPA 的特殊性,提供了以下解決方案:

Hash 路由處理

對於包含 # 的 URL,使用 POST 方法:

curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'

預加載內容處理

針對顯示預加載內容的網頁:

  1. 指定超時等待
curl 'https://example.com/' -H 'x-timeout: 30'
  1. 等待特定元素
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
  1. 使用流式模式
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/

部署和使用

生產環境使用

  • 服務狀態:免費、穩定、可擴展的生產級服務
  • 維護狀態:作為 Jina AI 的核心產品之一,正在積極維護
  • 服務地址https://r.jina.ai/https://s.jina.ai/

應用場景

AI Agent 系統

  • 為 AI Agent 提供結構化的網頁內容
  • 支持 Agent 進行網頁信息收集和分析
  • 提供實時網頁搜索能力

RAG 系統

  • 將網頁內容轉換為向量數據庫友好格式
  • 支持檢索增強生成的知識獲取
  • 提供高品質的外部知識源

內容分析

  • 網頁內容提取和清理
  • 多媒體內容理解(圖片描述)
  • 文件格式統一化

性能和限制

響應性能

  • 處理時間:通常在 2 秒內處理 URL 並返回內容
  • 複雜頁面:複雜或動態頁面可能需要更多時間

使用限制

  • 存在速率限制(具體限制請查看官方文檔)
  • 返回的內容保持原始語言,不提供翻譯服務

Jina AI Reader 是一個功能強大的開源工具,專門為現代 AI 系統設計,解決了 LLM 在處理網頁內容時面臨的格式和質量問題。通過簡單的 URL 前綴添加,就能獲得高品質、結構化的網頁內容,是構建 AI Agent 和 RAG 系統的理想工具