Home
Login

基於深度文檔理解的開源檢索增強生成引擎,為各規模企業提供準確可靠的問答能力

Apache-2.0Python 57.0kinfiniflow Last Updated: 2025-06-19

RAGFlow - 基於深度文檔理解的開源RAG引擎

項目概述

RAGFlow是一個基於深度文檔理解的開源RAG(檢索增強生成)引擎。它為各種規模的企業提供簡化的RAG工作流程,結合大語言模型(LLM)提供真實可靠的問答能力,並從各種複雜格式的數據中提供有據可查的引用。

核心特性

🧠 深度文檔理解

  • 基於複雜格式的非結構化數據進行知識提取
  • 支持在無限制tokens的"數據大海撈針"中精準查找
  • 智能且可解釋的處理結果

📄 多格式文檔支持

  • 支持格式:Word文檔、PPT演示文稿、Excel表格、文本文件、圖片、掃描件、結構化數據、網頁等
  • 處理能力:多模態模型支持PDF或DOCX文件中的圖像理解
  • 可視化分塊:文本分塊可視化,允許人工干預優化

🎯 精準檢索與引用

  • 提供關鍵參考文獻的快速查看
  • 可追溯的引用來源支持基於事實的答案
  • 多種召回策略配合融合重排序
  • 關鍵詞提取和相關問題生成,提高檢索準確性

🔧 靈活配置

  • 可配置的LLM和嵌入模型
  • 豐富的模板選項
  • 知識圖譜提取和應用的多種配置選項
  • 支持文本到SQL語句的轉換

🌐 企業級應用

  • 適用於個人和大型企業的簡化RAG編排
  • 直觀的API,無縫集成業務系統
  • 結合互聯網搜索(Tavily),支持任何LLM的深度研究推理

系統架構

RAGFlow採用模塊化設計,主要包含以下組件:

  • 前端界面:基於React的用戶交互界面
  • 後端服務:Python構建的核心處理引擎
  • 文檔處理引擎:DeepDoc深度文檔理解模塊
  • 向量存儲:支持Elasticsearch和Infinity
  • 數據存儲:MySQL、Redis、MinIO等
  • 模型服務:支持多種LLM和嵌入模型

技術要求

最低系統配置

  • CPU:≥ 4核心
  • 內存:≥ 16 GB
  • 磁盤空間:≥ 50 GB
  • Docker:≥ 24.0.0
  • Docker Compose:≥ v2.26.1

支持平台

  • 主要支持x86平台
  • ARM64平台需要自行構建Docker鏡像

安裝部署

Docker快速部署

# 克隆倉庫
git clone https://github.com/infiniflow/ragflow.git

# 進入docker目錄
cd ragflow/docker

# 啟動服務(CPU版本)
docker compose -f docker-compose.yml up -d

# 啟動服務(GPU加速版本)
docker compose -f docker-compose-gpu.yml up -d

鏡像版本說明

鏡像標籤 大小 包含嵌入模型 穩定性
v0.18.0 ~9GB ✔️ 穩定版本
v0.18.0-slim ~2GB 穩定版本
nightly ~9GB ✔️ 開發版本
nightly-slim ~2GB 開發版本

源码开发部署

支持從源碼啟動開發環境,包括Python環境配置、依賴服務啟動、前後端服務啟動等完整流程。

配置管理

系統通過以下配置文件進行管理:

  • .env:基礎系統配置(HTTP端口、數據庫密碼等)
  • service_conf.yaml.template:後端服務配置
  • docker-compose.yml:Docker容器編排配置

應用場景

  • 企業知識管理:構建內部知識庫問答系統
  • 文檔智能分析:複雜格式文檔的智能解析和查詢
  • 客戶服務:基於企業文檔的智能客服系統
  • 研究輔助:學術文獻和研究資料的智能檢索
  • 數據分析:結構化和非結構化數據的統一查詢

RAGFlow通過其強大的文檔理解能力和靈活的配置選項,為各行業提供了一個可靠的RAG解決方案,是構建智能問答系統的理想選擇。