infiniflow/ragflowView GitHub Homepage for Latest Official Releases
基于深度文档理解的开源检索增强生成引擎,为各规模企业提供准确可靠的问答能力
Apache-2.0TypeScriptragflowinfiniflow 61.9k Last Updated: August 07, 2025
RAGFlow - 基于深度文档理解的开源RAG引擎
项目概述
RAGFlow是一个基于深度文档理解的开源RAG(检索增强生成)引擎。它为各种规模的企业提供简化的RAG工作流程,结合大语言模型(LLM)提供真实可靠的问答能力,并从各种复杂格式的数据中提供有据可查的引用。
核心特性
🧠 深度文档理解
- 基于复杂格式的非结构化数据进行知识提取
- 支持在无限制tokens的"数据大海捞针"中精准查找
- 智能且可解释的处理结果
📄 多格式文档支持
- 支持格式:Word文档、PPT演示文稿、Excel表格、文本文件、图片、扫描件、结构化数据、网页等
- 处理能力:多模态模型支持PDF或DOCX文件中的图像理解
- 可视化分块:文本分块可视化,允许人工干预优化
🎯 精准检索与引用
- 提供关键参考文献的快速查看
- 可追溯的引用来源支持基于事实的答案
- 多种召回策略配合融合重排序
- 关键词提取和相关问题生成,提高检索准确性
🔧 灵活配置
- 可配置的LLM和嵌入模型
- 丰富的模板选项
- 知识图谱提取和应用的多种配置选项
- 支持文本到SQL语句的转换
🌐 企业级应用
- 适用于个人和大型企业的简化RAG编排
- 直观的API,无缝集成业务系统
- 结合互联网搜索(Tavily),支持任何LLM的深度研究推理
系统架构
RAGFlow采用模块化设计,主要包含以下组件:
- 前端界面:基于React的用户交互界面
- 后端服务:Python构建的核心处理引擎
- 文档处理引擎:DeepDoc深度文档理解模块
- 向量存储:支持Elasticsearch和Infinity
- 数据存储:MySQL、Redis、MinIO等
- 模型服务:支持多种LLM和嵌入模型
技术要求
最低系统配置
- CPU:≥ 4核心
- 内存:≥ 16 GB
- 磁盘空间:≥ 50 GB
- Docker:≥ 24.0.0
- Docker Compose:≥ v2.26.1
支持平台
- 主要支持x86平台
- ARM64平台需要自行构建Docker镜像
安装部署
Docker快速部署
# 克隆仓库
git clone https://github.com/infiniflow/ragflow.git
# 进入docker目录
cd ragflow/docker
# 启动服务(CPU版本)
docker compose -f docker-compose.yml up -d
# 启动服务(GPU加速版本)
docker compose -f docker-compose-gpu.yml up -d
镜像版本说明
镜像标签 | 大小 | 包含嵌入模型 | 稳定性 |
---|---|---|---|
v0.18.0 | ~9GB | ✔️ | 稳定版本 |
v0.18.0-slim | ~2GB | ❌ | 稳定版本 |
nightly | ~9GB | ✔️ | 开发版本 |
nightly-slim | ~2GB | ❌ | 开发版本 |
源码开发部署
支持从源码启动开发环境,包括Python环境配置、依赖服务启动、前后端服务启动等完整流程。
配置管理
系统通过以下配置文件进行管理:
- .env:基础系统配置(HTTP端口、数据库密码等)
- service_conf.yaml.template:后端服务配置
- docker-compose.yml:Docker容器编排配置
应用场景
- 企业知识管理:构建内部知识库问答系统
- 文档智能分析:复杂格式文档的智能解析和查询
- 客户服务:基于企业文档的智能客服系统
- 研究辅助:学术文献和研究资料的智能检索
- 数据分析:结构化和非结构化数据的统一查询
RAGFlow通过其强大的文档理解能力和灵活的配置选项,为各行业提供了一个可靠的RAG解决方案,是构建智能问答系统的理想选择。