基于大语言模型的文档理解与语义检索框架,专为企业知识库和RAG应用打造

NOASSERTIONGoWeKnoraTencent 6.6k Last Updated: October 23, 2025

WeKnora - 腾讯开源的企业级文档问答框架

项目概述

WeKnora是腾讯开源的一款基于大语言模型(LLM)的文档理解与语义检索框架,专为结构复杂、内容异构的文档场景而打造。该框架采用模块化架构,融合多模态预处理、语义向量索引、智能召回与大模型生成推理,构建起高效、可控的文档问答流程。

官网https://weknora.weixin.qq.com
GitHub地址https://github.com/Tencent/WeKnora
开源协议:MIT License

核心特性

🔍 精准理解

  • 支持PDF、Word、图片等多种文档格式的结构化内容提取
  • 统一构建语义视图,支持图文混排与OCR文字识别
  • 智能文档解析,处理复杂结构和异构内容

🧠 智能推理

  • 基于RAG(Retrieval-Augmented Generation)技术
  • 借助大语言模型理解文档上下文与用户意图
  • 支持精准问答与多轮对话

🔧 灵活扩展

  • 从解析、嵌入、召回到生成全流程解耦
  • 模块化设计,每个组件均可灵活配置与扩展
  • 便于集成与定制开发

⚡ 高效检索

  • 混合多种检索策略:关键词、向量、知识图谱
  • 支持BM25、Dense Retrieve、GraphRAG等检索机制
  • 可自由组合召回-重排-生成流程

🎯 简单易用

  • 直观的Web界面与标准RESTful API
  • 零技术门槛快速上手
  • 拖拽上传文档,一键部署服务

🔒 安全可控

  • 支持本地化与私有云部署
  • 数据完全自主可控
  • 满足企业级安全要求

应用场景

应用场景 具体应用 核心价值
企业知识管理 内部文档检索、规章制度问答、操作手册查询 提升知识查找效率,降低培训成本
科研文献分析 论文检索、研究报告分析、学术资料整理 加速文献调研,辅助研究决策
产品技术支持 产品手册问答、技术文档检索、故障排查 提升客户服务质量,减少技术支持负担
法律合规审查 合同条款检索、法规政策查询、案例分析 提高合规效率,降低法律风险
医疗知识辅助 医学文献检索、诊疗指南查询、病例分析 辅助临床决策,提升诊疗质量

功能模块详解

文档处理能力

  • 支持格式:PDF、Word、Txt、Markdown、图片(包含OCR和Caption)
  • 智能解析:自动识别文档结构,提取核心内容
  • 多模态处理:图文混排内容的统一理解

向量化与检索

  • 嵌入模型:支持本地模型、BGE、GTE API等
  • 向量数据库:PostgreSQL(pgvector)、Elasticsearch
  • 检索策略:BM25稀疏检索、Dense Retrieve稠密检索、GraphRAG知识图谱检索

大模型集成

  • 模型支持:Qwen(通义千问)、DeepSeek等主流大模型
  • 部署方式:本地部署(Ollama)或外部API调用
  • 推理模式:支持思考/非思考模式切换

知识图谱功能

WeKnora支持将文档转化为知识图谱,展示文档中不同段落之间的关联关系。开启知识图谱功能后,系统会分析并构建文档内部的语义关联网络,不仅帮助用户理解文档内容,还为索引和检索提供结构化支撑。

技术架构

项目结构

WeKnora/
├── cmd/           # 应用入口
├── internal/      # 核心业务逻辑
├── config/        # 配置文件
├── migrations/    # 数据库迁移脚本
├── scripts/       # 启动与工具脚本
├── services/      # 各子服务实现
├── frontend/      # 前端项目
└── docs/          # 项目文档

核心模块

  1. 文档解析模块:多格式文档内容提取与结构化
  2. 向量化处理模块:文档内容的语义向量化
  3. 检索引擎模块:多策略检索与召回
  4. 大模型推理模块:基于上下文的智能问答生成

快速开始

环境要求

  • Docker
  • Docker Compose
  • Git

安装步骤

  1. 克隆代码库
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora
  1. 配置环境变量
cp .env.example .env
# 编辑 .env 文件,根据注释填入相关配置
  1. 启动服务
# 一键启动所有服务
./scripts/start_all.sh
# 或使用 make 命令
make start-all
  1. 访问服务 启动成功后,可访问以下地址:

停止服务

./scripts/start_all.sh --stop
# 或
make stop-all

微信生态集成

WeKnora作为微信对话开放平台的核心技术框架,提供以下能力:

  • 零代码部署:只需上传知识,即可在微信生态中快速部署智能问答服务
  • 高效问题管理:支持高频问题的独立分类管理
  • 微信生态覆盖:可无缝集成到公众号、小程序等微信场景中

API接口

WeKnora提供完整的RESTful API接口,支持:

  • 文档上传与管理
  • 知识库操作
  • 问答查询
  • 系统配置

详细API文档请参考:API Documentation

开发与贡献

贡献类型

  • 🐛 Bug修复:发现并修复系统缺陷
  • ✨ 新功能:提出并实现新特性
  • 📚 文档改进:完善项目文档
  • 🧪 测试用例:编写单元测试和集成测试
  • 🎨 UI/UX优化:改进用户界面和体验

开发规范

提交流程

  1. Fork项目到个人GitHub账户
  2. 创建特性分支:git checkout -b feature/amazing-feature
  3. 提交更改:git commit -m 'Add amazing feature'
  4. 推送分支:git push origin feature/amazing-feature
  5. 创建Pull Request并详细描述变更内容

优势特点

  1. 企业级稳定性:腾讯团队开发,经过大规模生产环境验证
  2. 开箱即用:Docker一键部署,Web界面直观操作
  3. 技术先进:基于最新的RAG技术和大模型能力
  4. 高度可定制:模块化设计,支持灵活扩展和集成
  5. 数据安全:支持私有化部署,数据完全自主可控
  6. 生态集成:与微信生态深度融合,支持多场景应用

总结

WeKnora是一款功能强大、技术先进的企业级文档问答框架。它不仅提供了完整的RAG技术栈,还具备出色的易用性和可扩展性。无论是企业内部知识管理、科研文献分析,还是客户服务支持,WeKnora都能提供高效、准确的解决方案。

通过开源的方式,WeKnora为广大开发者和企业提供了一个高质量的起点,让构建智能文档问答系统变得简单高效。

Star History Chart