Home
Login

基于深度文档理解的开源检索增强生成引擎,为各规模企业提供准确可靠的问答能力

Apache-2.0Python 57.0kinfiniflow Last Updated: 2025-06-19

RAGFlow - 基于深度文档理解的开源RAG引擎

项目概述

RAGFlow是一个基于深度文档理解的开源RAG(检索增强生成)引擎。它为各种规模的企业提供简化的RAG工作流程,结合大语言模型(LLM)提供真实可靠的问答能力,并从各种复杂格式的数据中提供有据可查的引用。

核心特性

🧠 深度文档理解

  • 基于复杂格式的非结构化数据进行知识提取
  • 支持在无限制tokens的"数据大海捞针"中精准查找
  • 智能且可解释的处理结果

📄 多格式文档支持

  • 支持格式:Word文档、PPT演示文稿、Excel表格、文本文件、图片、扫描件、结构化数据、网页等
  • 处理能力:多模态模型支持PDF或DOCX文件中的图像理解
  • 可视化分块:文本分块可视化,允许人工干预优化

🎯 精准检索与引用

  • 提供关键参考文献的快速查看
  • 可追溯的引用来源支持基于事实的答案
  • 多种召回策略配合融合重排序
  • 关键词提取和相关问题生成,提高检索准确性

🔧 灵活配置

  • 可配置的LLM和嵌入模型
  • 丰富的模板选项
  • 知识图谱提取和应用的多种配置选项
  • 支持文本到SQL语句的转换

🌐 企业级应用

  • 适用于个人和大型企业的简化RAG编排
  • 直观的API,无缝集成业务系统
  • 结合互联网搜索(Tavily),支持任何LLM的深度研究推理

系统架构

RAGFlow采用模块化设计,主要包含以下组件:

  • 前端界面:基于React的用户交互界面
  • 后端服务:Python构建的核心处理引擎
  • 文档处理引擎:DeepDoc深度文档理解模块
  • 向量存储:支持Elasticsearch和Infinity
  • 数据存储:MySQL、Redis、MinIO等
  • 模型服务:支持多种LLM和嵌入模型

技术要求

最低系统配置

  • CPU:≥ 4核心
  • 内存:≥ 16 GB
  • 磁盘空间:≥ 50 GB
  • Docker:≥ 24.0.0
  • Docker Compose:≥ v2.26.1

支持平台

  • 主要支持x86平台
  • ARM64平台需要自行构建Docker镜像

安装部署

Docker快速部署

# 克隆仓库
git clone https://github.com/infiniflow/ragflow.git

# 进入docker目录
cd ragflow/docker

# 启动服务(CPU版本)
docker compose -f docker-compose.yml up -d

# 启动服务(GPU加速版本)
docker compose -f docker-compose-gpu.yml up -d

镜像版本说明

镜像标签 大小 包含嵌入模型 稳定性
v0.18.0 ~9GB ✔️ 稳定版本
v0.18.0-slim ~2GB 稳定版本
nightly ~9GB ✔️ 开发版本
nightly-slim ~2GB 开发版本

源码开发部署

支持从源码启动开发环境,包括Python环境配置、依赖服务启动、前后端服务启动等完整流程。

配置管理

系统通过以下配置文件进行管理:

  • .env:基础系统配置(HTTP端口、数据库密码等)
  • service_conf.yaml.template:后端服务配置
  • docker-compose.yml:Docker容器编排配置

应用场景

  • 企业知识管理:构建内部知识库问答系统
  • 文档智能分析:复杂格式文档的智能解析和查询
  • 客户服务:基于企业文档的智能客服系统
  • 研究辅助:学术文献和研究资料的智能检索
  • 数据分析:结构化和非结构化数据的统一查询

RAGFlow通过其强大的文档理解能力和灵活的配置选项,为各行业提供了一个可靠的RAG解决方案,是构建智能问答系统的理想选择。