Tencent/WeKnora View GitHub Homepage for Latest Official Releases
基于大语言模型的文档理解与语义检索框架,专为企业知识库和RAG应用打造
NOASSERTIONGoWeKnoraTencent 6.6k Last Updated: October 23, 2025
WeKnora - 腾讯开源的企业级文档问答框架
项目概述
WeKnora是腾讯开源的一款基于大语言模型(LLM)的文档理解与语义检索框架,专为结构复杂、内容异构的文档场景而打造。该框架采用模块化架构,融合多模态预处理、语义向量索引、智能召回与大模型生成推理,构建起高效、可控的文档问答流程。
官网:https://weknora.weixin.qq.com
GitHub地址:https://github.com/Tencent/WeKnora
开源协议:MIT License
核心特性
🔍 精准理解
- 支持PDF、Word、图片等多种文档格式的结构化内容提取
- 统一构建语义视图,支持图文混排与OCR文字识别
- 智能文档解析,处理复杂结构和异构内容
🧠 智能推理
- 基于RAG(Retrieval-Augmented Generation)技术
- 借助大语言模型理解文档上下文与用户意图
- 支持精准问答与多轮对话
🔧 灵活扩展
- 从解析、嵌入、召回到生成全流程解耦
- 模块化设计,每个组件均可灵活配置与扩展
- 便于集成与定制开发
⚡ 高效检索
- 混合多种检索策略:关键词、向量、知识图谱
- 支持BM25、Dense Retrieve、GraphRAG等检索机制
- 可自由组合召回-重排-生成流程
🎯 简单易用
- 直观的Web界面与标准RESTful API
- 零技术门槛快速上手
- 拖拽上传文档,一键部署服务
🔒 安全可控
- 支持本地化与私有云部署
- 数据完全自主可控
- 满足企业级安全要求
应用场景
| 应用场景 | 具体应用 | 核心价值 |
|---|---|---|
| 企业知识管理 | 内部文档检索、规章制度问答、操作手册查询 | 提升知识查找效率,降低培训成本 |
| 科研文献分析 | 论文检索、研究报告分析、学术资料整理 | 加速文献调研,辅助研究决策 |
| 产品技术支持 | 产品手册问答、技术文档检索、故障排查 | 提升客户服务质量,减少技术支持负担 |
| 法律合规审查 | 合同条款检索、法规政策查询、案例分析 | 提高合规效率,降低法律风险 |
| 医疗知识辅助 | 医学文献检索、诊疗指南查询、病例分析 | 辅助临床决策,提升诊疗质量 |
功能模块详解
文档处理能力
- 支持格式:PDF、Word、Txt、Markdown、图片(包含OCR和Caption)
- 智能解析:自动识别文档结构,提取核心内容
- 多模态处理:图文混排内容的统一理解
向量化与检索
- 嵌入模型:支持本地模型、BGE、GTE API等
- 向量数据库:PostgreSQL(pgvector)、Elasticsearch
- 检索策略:BM25稀疏检索、Dense Retrieve稠密检索、GraphRAG知识图谱检索
大模型集成
- 模型支持:Qwen(通义千问)、DeepSeek等主流大模型
- 部署方式:本地部署(Ollama)或外部API调用
- 推理模式:支持思考/非思考模式切换
知识图谱功能
WeKnora支持将文档转化为知识图谱,展示文档中不同段落之间的关联关系。开启知识图谱功能后,系统会分析并构建文档内部的语义关联网络,不仅帮助用户理解文档内容,还为索引和检索提供结构化支撑。
技术架构
项目结构
WeKnora/
├── cmd/ # 应用入口
├── internal/ # 核心业务逻辑
├── config/ # 配置文件
├── migrations/ # 数据库迁移脚本
├── scripts/ # 启动与工具脚本
├── services/ # 各子服务实现
├── frontend/ # 前端项目
└── docs/ # 项目文档
核心模块
- 文档解析模块:多格式文档内容提取与结构化
- 向量化处理模块:文档内容的语义向量化
- 检索引擎模块:多策略检索与召回
- 大模型推理模块:基于上下文的智能问答生成
快速开始
环境要求
- Docker
- Docker Compose
- Git
安装步骤
- 克隆代码库
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora
- 配置环境变量
cp .env.example .env
# 编辑 .env 文件,根据注释填入相关配置
- 启动服务
# 一键启动所有服务
./scripts/start_all.sh
# 或使用 make 命令
make start-all
- 访问服务 启动成功后,可访问以下地址:
- Web UI:http://localhost
- 后端 API:http://localhost:8080
- 链路追踪(Jaeger):http://localhost:16686
停止服务
./scripts/start_all.sh --stop
# 或
make stop-all
微信生态集成
WeKnora作为微信对话开放平台的核心技术框架,提供以下能力:
- 零代码部署:只需上传知识,即可在微信生态中快速部署智能问答服务
- 高效问题管理:支持高频问题的独立分类管理
- 微信生态覆盖:可无缝集成到公众号、小程序等微信场景中
API接口
WeKnora提供完整的RESTful API接口,支持:
- 文档上传与管理
- 知识库操作
- 问答查询
- 系统配置
详细API文档请参考:API Documentation
开发与贡献
贡献类型
- 🐛 Bug修复:发现并修复系统缺陷
- ✨ 新功能:提出并实现新特性
- 📚 文档改进:完善项目文档
- 🧪 测试用例:编写单元测试和集成测试
- 🎨 UI/UX优化:改进用户界面和体验
开发规范
- 遵循Go Code Review Comments
- 使用
gofmt格式化代码 - 添加必要的单元测试
- 更新相关文档
- 使用Conventional Commits规范
提交流程
- Fork项目到个人GitHub账户
- 创建特性分支:
git checkout -b feature/amazing-feature - 提交更改:
git commit -m 'Add amazing feature' - 推送分支:
git push origin feature/amazing-feature - 创建Pull Request并详细描述变更内容
优势特点
- 企业级稳定性:腾讯团队开发,经过大规模生产环境验证
- 开箱即用:Docker一键部署,Web界面直观操作
- 技术先进:基于最新的RAG技术和大模型能力
- 高度可定制:模块化设计,支持灵活扩展和集成
- 数据安全:支持私有化部署,数据完全自主可控
- 生态集成:与微信生态深度融合,支持多场景应用
总结
WeKnora是一款功能强大、技术先进的企业级文档问答框架。它不仅提供了完整的RAG技术栈,还具备出色的易用性和可扩展性。无论是企业内部知识管理、科研文献分析,还是客户服务支持,WeKnora都能提供高效、准确的解决方案。
通过开源的方式,WeKnora为广大开发者和企业提供了一个高质量的起点,让构建智能文档问答系统变得简单高效。