基於大語言模型的文檔理解與語義檢索框架,專為企業知識庫和RAG應用打造

NOASSERTIONGoWeKnoraTencent 6.6k Last Updated: October 23, 2025

WeKnora - 騰訊開源的企業級文檔問答框架

專案概述

WeKnora是騰訊開源的一款基於大語言模型(LLM)的文檔理解與語義檢索框架,專為結構複雜、內容異構的文檔場景而打造。該框架採用模組化架構,融合多模態預處理、語義向量索引、智能召回與大模型生成推理,建構起高效、可控的文檔問答流程。

官網https://weknora.weixin.qq.com
GitHub地址https://github.com/Tencent/WeKnora
開源協議:MIT License

核心特性

🔍 精準理解

  • 支援PDF、Word、圖片等多種文檔格式的結構化內容提取
  • 統一建構語義視圖,支援圖文混排與OCR文字識別
  • 智能文檔解析,處理複雜結構和異構內容

🧠 智能推理

  • 基於RAG(Retrieval-Augmented Generation)技術
  • 借助大語言模型理解文檔上下文與使用者意圖
  • 支援精準問答與多輪對話

🔧 靈活擴展

  • 從解析、嵌入、召回到生成全流程解耦
  • 模組化設計,每個組件均可靈活配置與擴展
  • 便於整合與客製化開發

⚡ 高效檢索

  • 混合多種檢索策略:關鍵詞、向量、知識圖譜
  • 支援BM25、Dense Retrieve、GraphRAG等檢索機制
  • 可自由組合召回-重排-生成流程

🎯 簡單易用

  • 直觀的Web介面與標準RESTful API
  • 零技術門檻快速上手
  • 拖曳上傳文檔,一鍵部署服務

🔒 安全可控

  • 支援在地化與私有雲部署
  • 資料完全自主可控
  • 滿足企業級安全要求

應用場景

應用場景 具體應用 核心價值
企業知識管理 內部文檔檢索、規章制度問答、操作手冊查詢 提升知識查找效率,降低培訓成本
科研文獻分析 論文檢索、研究報告分析、學術資料整理 加速文獻調研,輔助研究決策
產品技術支援 產品手冊問答、技術文檔檢索、故障排除 提升客戶服務品質,減少技術支援負擔
法律合規審查 合同條款檢索、法規政策查詢、案例分析 提高合規效率,降低法律風險
醫療知識輔助 醫學文獻檢索、診療指南查詢、病例分析 輔助臨床決策,提升診療品質

功能模組詳解

文檔處理能力

  • 支援格式:PDF、Word、Txt、Markdown、圖片(包含OCR和Caption)
  • 智能解析:自動識別文檔結構,提取核心內容
  • 多模態處理:圖文混排內容的統一理解

向量化與檢索

  • 嵌入模型:支援在地模型、BGE、GTE API等
  • 向量資料庫:PostgreSQL(pgvector)、Elasticsearch
  • 檢索策略:BM25稀疏檢索、Dense Retrieve稠密檢索、GraphRAG知識圖譜檢索

大模型整合

  • 模型支援:Qwen(通義千問)、DeepSeek等主流大模型
  • 部署方式:在地部署(Ollama)或外部API呼叫
  • 推理模式:支援思考/非思考模式切換

知識圖譜功能

WeKnora支援將文檔轉化為知識圖譜,展示文檔中不同段落之間的關聯關係。開啟知識圖譜功能後,系統會分析並建構文檔內部的語義關聯網路,不僅幫助使用者理解文檔內容,還為索引和檢索提供結構化支撐。

技術架構

專案結構

WeKnora/
├── cmd/           # 應用入口
├── internal/      # 核心業務邏輯
├── config/        # 配置檔
├── migrations/    # 資料庫遷移腳本
├── scripts/       # 啟動與工具腳本
├── services/      # 各子服務實現
├── frontend/      # 前端專案
└── docs/          # 專案文檔

核心模組

  1. 文檔解析模組:多格式文檔內容提取與結構化
  2. 向量化處理模組:文檔內容的語義向量化
  3. 檢索引擎模組:多策略檢索與召回
  4. 大模型推理模組:基於上下文的智能問答生成

快速開始

環境要求

  • Docker
  • Docker Compose
  • Git

安裝步驟

  1. 複製程式碼庫
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora
  1. 配置環境變數
cp .env.example .env
# 編輯 .env 檔案,根據註釋填入相關配置
  1. 啟動服務
# 一鍵啟動所有服務
./scripts/start_all.sh
# 或使用 make 命令
make start-all
  1. 存取服務 啟動成功後,可存取以下位址:

停止服務

./scripts/start_all.sh --stop
# 或
make stop-all

微信生態整合

WeKnora作為微信對話開放平台的核心技術框架,提供以下能力:

  • 零程式碼部署:只需上傳知識,即可在微信生態中快速部署智能問答服務
  • 高效問題管理:支援高頻問題的獨立分類管理
  • 微信生態覆蓋:可無縫整合到公眾號、小程序等微信場景中

API介面

WeKnora提供完整的RESTful API介面,支援:

  • 文檔上傳與管理
  • 知識庫操作
  • 問答查詢
  • 系統配置

詳細API文檔請參考:API Documentation

開發與貢獻

貢獻類型

  • 🐛 Bug修復:發現並修復系統缺陷
  • ✨ 新功能:提出並實現新特性
  • 📚 文檔改進:完善專案文檔
  • 🧪 測試用例:編寫單元測試和整合測試
  • 🎨 UI/UX優化:改進使用者介面和體驗

開發規範

提交流程

  1. Fork專案到個人GitHub帳戶
  2. 建立特性分支:git checkout -b feature/amazing-feature
  3. 提交更改:git commit -m 'Add amazing feature'
  4. 推送分支:git push origin feature/amazing-feature
  5. 建立Pull Request並詳細描述變更內容

優勢特點

  1. 企業級穩定性:騰訊團隊開發,經過大規模生產環境驗證
  2. 開箱即用:Docker一鍵部署,Web介面直觀操作
  3. 技術先進:基於最新的RAG技術和大模型能力
  4. 高度可客製化:模組化設計,支援靈活擴展和整合
  5. 資料安全:支援私有化部署,資料完全自主可控
  6. 生態整合:與微信生態深度融合,支援多場景應用

總結

WeKnora是一款功能強大、技術先進的企業級文檔問答框架。它不僅提供了完整的RAG技術棧,還具備出色的易用性和可擴展性。無論是企業內部知識管理、科研文獻分析,還是客戶服務支援,WeKnora都能提供高效、準確的解決方案。

透過開源的方式,WeKnora為廣大開發者和企業提供了一個高品質的起點,讓建構智能文檔問答系統變得簡單高效。

Star History Chart