Tencent/WeKnora View GitHub Homepage for Latest Official Releases
基於大語言模型的文檔理解與語義檢索框架,專為企業知識庫和RAG應用打造
NOASSERTIONGoWeKnoraTencent 6.6k Last Updated: October 23, 2025
WeKnora - 騰訊開源的企業級文檔問答框架
專案概述
WeKnora是騰訊開源的一款基於大語言模型(LLM)的文檔理解與語義檢索框架,專為結構複雜、內容異構的文檔場景而打造。該框架採用模組化架構,融合多模態預處理、語義向量索引、智能召回與大模型生成推理,建構起高效、可控的文檔問答流程。
官網:https://weknora.weixin.qq.com
GitHub地址:https://github.com/Tencent/WeKnora
開源協議:MIT License
核心特性
🔍 精準理解
- 支援PDF、Word、圖片等多種文檔格式的結構化內容提取
- 統一建構語義視圖,支援圖文混排與OCR文字識別
- 智能文檔解析,處理複雜結構和異構內容
🧠 智能推理
- 基於RAG(Retrieval-Augmented Generation)技術
- 借助大語言模型理解文檔上下文與使用者意圖
- 支援精準問答與多輪對話
🔧 靈活擴展
- 從解析、嵌入、召回到生成全流程解耦
- 模組化設計,每個組件均可靈活配置與擴展
- 便於整合與客製化開發
⚡ 高效檢索
- 混合多種檢索策略:關鍵詞、向量、知識圖譜
- 支援BM25、Dense Retrieve、GraphRAG等檢索機制
- 可自由組合召回-重排-生成流程
🎯 簡單易用
- 直觀的Web介面與標準RESTful API
- 零技術門檻快速上手
- 拖曳上傳文檔,一鍵部署服務
🔒 安全可控
- 支援在地化與私有雲部署
- 資料完全自主可控
- 滿足企業級安全要求
應用場景
| 應用場景 | 具體應用 | 核心價值 |
|---|---|---|
| 企業知識管理 | 內部文檔檢索、規章制度問答、操作手冊查詢 | 提升知識查找效率,降低培訓成本 |
| 科研文獻分析 | 論文檢索、研究報告分析、學術資料整理 | 加速文獻調研,輔助研究決策 |
| 產品技術支援 | 產品手冊問答、技術文檔檢索、故障排除 | 提升客戶服務品質,減少技術支援負擔 |
| 法律合規審查 | 合同條款檢索、法規政策查詢、案例分析 | 提高合規效率,降低法律風險 |
| 醫療知識輔助 | 醫學文獻檢索、診療指南查詢、病例分析 | 輔助臨床決策,提升診療品質 |
功能模組詳解
文檔處理能力
- 支援格式:PDF、Word、Txt、Markdown、圖片(包含OCR和Caption)
- 智能解析:自動識別文檔結構,提取核心內容
- 多模態處理:圖文混排內容的統一理解
向量化與檢索
- 嵌入模型:支援在地模型、BGE、GTE API等
- 向量資料庫:PostgreSQL(pgvector)、Elasticsearch
- 檢索策略:BM25稀疏檢索、Dense Retrieve稠密檢索、GraphRAG知識圖譜檢索
大模型整合
- 模型支援:Qwen(通義千問)、DeepSeek等主流大模型
- 部署方式:在地部署(Ollama)或外部API呼叫
- 推理模式:支援思考/非思考模式切換
知識圖譜功能
WeKnora支援將文檔轉化為知識圖譜,展示文檔中不同段落之間的關聯關係。開啟知識圖譜功能後,系統會分析並建構文檔內部的語義關聯網路,不僅幫助使用者理解文檔內容,還為索引和檢索提供結構化支撐。
技術架構
專案結構
WeKnora/
├── cmd/ # 應用入口
├── internal/ # 核心業務邏輯
├── config/ # 配置檔
├── migrations/ # 資料庫遷移腳本
├── scripts/ # 啟動與工具腳本
├── services/ # 各子服務實現
├── frontend/ # 前端專案
└── docs/ # 專案文檔
核心模組
- 文檔解析模組:多格式文檔內容提取與結構化
- 向量化處理模組:文檔內容的語義向量化
- 檢索引擎模組:多策略檢索與召回
- 大模型推理模組:基於上下文的智能問答生成
快速開始
環境要求
- Docker
- Docker Compose
- Git
安裝步驟
- 複製程式碼庫
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora
- 配置環境變數
cp .env.example .env
# 編輯 .env 檔案,根據註釋填入相關配置
- 啟動服務
# 一鍵啟動所有服務
./scripts/start_all.sh
# 或使用 make 命令
make start-all
- 存取服務 啟動成功後,可存取以下位址:
- Web UI:http://localhost
- 後端 API:http://localhost:8080
- 鏈路追蹤(Jaeger):http://localhost:16686
停止服務
./scripts/start_all.sh --stop
# 或
make stop-all
微信生態整合
WeKnora作為微信對話開放平台的核心技術框架,提供以下能力:
- 零程式碼部署:只需上傳知識,即可在微信生態中快速部署智能問答服務
- 高效問題管理:支援高頻問題的獨立分類管理
- 微信生態覆蓋:可無縫整合到公眾號、小程序等微信場景中
API介面
WeKnora提供完整的RESTful API介面,支援:
- 文檔上傳與管理
- 知識庫操作
- 問答查詢
- 系統配置
詳細API文檔請參考:API Documentation
開發與貢獻
貢獻類型
- 🐛 Bug修復:發現並修復系統缺陷
- ✨ 新功能:提出並實現新特性
- 📚 文檔改進:完善專案文檔
- 🧪 測試用例:編寫單元測試和整合測試
- 🎨 UI/UX優化:改進使用者介面和體驗
開發規範
- 遵循Go Code Review Comments
- 使用
gofmt格式化程式碼 - 添加必要的單元測試
- 更新相關文檔
- 使用Conventional Commits規範
提交流程
- Fork專案到個人GitHub帳戶
- 建立特性分支:
git checkout -b feature/amazing-feature - 提交更改:
git commit -m 'Add amazing feature' - 推送分支:
git push origin feature/amazing-feature - 建立Pull Request並詳細描述變更內容
優勢特點
- 企業級穩定性:騰訊團隊開發,經過大規模生產環境驗證
- 開箱即用:Docker一鍵部署,Web介面直觀操作
- 技術先進:基於最新的RAG技術和大模型能力
- 高度可客製化:模組化設計,支援靈活擴展和整合
- 資料安全:支援私有化部署,資料完全自主可控
- 生態整合:與微信生態深度融合,支援多場景應用
總結
WeKnora是一款功能強大、技術先進的企業級文檔問答框架。它不僅提供了完整的RAG技術棧,還具備出色的易用性和可擴展性。無論是企業內部知識管理、科研文獻分析,還是客戶服務支援,WeKnora都能提供高效、準確的解決方案。
透過開源的方式,WeKnora為廣大開發者和企業提供了一個高品質的起點,讓建構智能文檔問答系統變得簡單高效。