Framework d'analyse de documents et de recherche sémantique basé sur des modèles de langage de grande taille, spécialement conçu pour les bases de connaissances d'entreprise et les applications RAG.

NOASSERTIONGoWeKnoraTencent 6.6k Last Updated: October 23, 2025

WeKnora - Cadre de Questions-Réponses Documentaires d'Entreprise Open Source par Tencent

Aperçu du Projet

WeKnora est un cadre open source développé par Tencent, basé sur les grands modèles linguistiques (LLM), pour la compréhension de documents et la récupération sémantique. Il est spécialement conçu pour les scénarios documentaires complexes et hétérogènes. Ce cadre adopte une architecture modulaire, intégrant le prétraitement multimodal, l'indexation vectorielle sémantique, la récupération intelligente et l'inférence générative par grand modèle, afin de construire un processus de questions-réponses documentaires efficace et contrôlable.

Site officiel : https://weknora.weixin.qq.com
Adresse GitHub : https://github.com/Tencent/WeKnora
Licence Open Source : MIT License

Caractéristiques Principales

🔍 Compréhension Précise

  • Prend en charge l'extraction de contenu structuré à partir de divers formats de documents tels que PDF, Word, images, etc.
  • Construit une vue sémantique unifiée, prenant en charge la mise en page texte-image mixte et la reconnaissance optique de caractères (OCR).
  • Analyse intelligente des documents, gérant les structures complexes et les contenus hétérogènes.

🧠 Inférence Intelligente

  • Basé sur la technologie RAG (Retrieval-Augmented Generation).
  • Utilise les grands modèles linguistiques pour comprendre le contexte du document et l'intention de l'utilisateur.
  • Prend en charge les questions-réponses précises et les dialogues multi-tours.

🔧 Extensibilité Flexible

  • Découplage complet du processus : de l'analyse à l'intégration, en passant par la récupération et la génération.
  • Conception modulaire, chaque composant étant configurable et extensible de manière flexible.
  • Facile à intégrer et à développer sur mesure.

⚡ Récupération Efficace

  • Combine diverses stratégies de récupération : mots-clés, vecteurs, graphes de connaissances.
  • Prend en charge des mécanismes de récupération tels que BM25, Dense Retrieve, GraphRAG.
  • Permet de combiner librement les processus de récupération-reclassement-génération.

🎯 Simple à Utiliser

  • Interface Web intuitive et API RESTful standard.
  • Prise en main rapide sans aucune compétence technique requise.
  • Glisser-déposer pour télécharger des documents, déploiement du service en un clic.

🔒 Sécurité et Contrôle

  • Prend en charge le déploiement local et sur cloud privé.
  • Contrôle total et autonome des données.
  • Conforme aux exigences de sécurité de niveau entreprise.

Scénarios d'Application

Scénario d'Application Application Spécifique Valeur Principale
Gestion des connaissances d'entreprise Recherche de documents internes, questions-réponses sur les règlements, consultation de manuels d'utilisation Améliore l'efficacité de la recherche de connaissances, réduit les coûts de formation
Analyse de littérature scientifique Recherche d'articles, analyse de rapports de recherche, organisation de documents académiques Accélère la recherche bibliographique, aide à la prise de décision de recherche
Support technique produit Questions-réponses sur les manuels produit, recherche de documentation technique, dépannage Améliore la qualité du service client, réduit la charge du support technique
Examen de conformité légale Recherche de clauses contractuelles, consultation de réglementations, analyse de cas Améliore l'efficacité de la conformité, réduit les risques juridiques
Assistance aux connaissances médicales Recherche de littérature médicale, consultation de guides de diagnostic et de traitement, analyse de cas cliniques Aide à la décision clinique, améliore la qualité des soins

Détail des Modules Fonctionnels

Capacités de Traitement des Documents

  • Formats pris en charge : PDF, Word, Txt, Markdown, Images (incluant OCR et légendes)
  • Analyse intelligente : Identification automatique de la structure du document, extraction du contenu essentiel.
  • Traitement multimodal : Compréhension unifiée des contenus texte-image mixte.

Vectorisation et Récupération

  • Modèles d'intégration (embedding) : Prend en charge les modèles locaux, BGE, GTE API, etc.
  • Bases de données vectorielles : PostgreSQL (pgvector), Elasticsearch.
  • Stratégies de récupération : Récupération sparse BM25, récupération dense Dense Retrieve, récupération par graphe de connaissances GraphRAG.

Intégration de Grands Modèles

  • Modèles pris en charge : Qwen (Tongyi Qianwen), DeepSeek et autres grands modèles courants.
  • Méthodes de déploiement : Déploiement local (Ollama) ou appel d'API externe.
  • Modes d'inférence : Prend en charge la commutation entre les modes "réflexion" et "non-réflexion".

Fonctionnalité de Graphe de Connaissances

WeKnora prend en charge la conversion de documents en graphes de connaissances, affichant les relations entre les différents paragraphes du document. Lorsque la fonction de graphe de connaissances est activée, le système analyse et construit un réseau de relations sémantiques internes au document, ce qui aide non seulement les utilisateurs à comprendre le contenu du document, mais fournit également un support structuré pour l'indexation et la récupération.

Architecture Technique

Structure du Projet

WeKnora/
├── cmd/           # Points d'entrée de l'application
├── internal/      # Logique métier principale
├── config/        # Fichiers de configuration
├── migrations/    # Scripts de migration de base de données
├── scripts/       # Scripts de démarrage et utilitaires
├── services/      # Implémentation des sous-services
├── frontend/      # Projet frontal
└── docs/          # Documentation du projet

Modules Clés

  1. Module d'analyse de documents : Extraction et structuration du contenu de documents multiformats.
  2. Module de traitement de vectorisation : Vectorisation sémantique du contenu des documents.
  3. Module de moteur de récupération : Récupération et rappel multi-stratégies.
  4. Module d'inférence par grand modèle : Génération de réponses intelligentes basées sur le contexte.

Démarrage Rapide

Prérequis Environnementaux

  • Docker
  • Docker Compose
  • Git

Étapes d'Installation

  1. Cloner le dépôt de code

    git clone https://github.com/Tencent/WeKnora.git
    cd WeKnora
    
  2. Configurer les variables d'environnement

    cp .env.example .env
    # Éditez le fichier .env et remplissez les configurations selon les commentaires
    
  3. Démarrer les services

    # Démarrer tous les services en une seule commande
    ./scripts/start_all.sh
    # Ou utiliser la commande make
    make start-all
    
  4. Accéder aux services Après un démarrage réussi, vous pouvez accéder aux adresses suivantes :

Arrêter les services

./scripts/start_all.sh --stop
# Ou
make stop-all

Intégration à l'Écosystème WeChat

WeKnora, en tant que cadre technologique central de la plateforme ouverte de dialogue WeChat, offre les capacités suivantes :

  • Déploiement sans code : Il suffit de télécharger les connaissances pour déployer rapidement un service de questions-réponses intelligent dans l'écosystème WeChat.
  • Gestion efficace des problèmes : Prend en charge la gestion catégorisée indépendante des questions fréquentes.
  • Couverture de l'écosystème WeChat : Peut être intégré de manière transparente dans des scénarios WeChat tels que les comptes officiels et les mini-programmes.

Interface API

WeKnora fournit une interface API RESTful complète, prenant en charge :

  • Le téléchargement et la gestion de documents
  • Les opérations sur les bases de connaissances
  • Les requêtes de questions-réponses
  • La configuration du système

Pour une documentation API détaillée, veuillez consulter : API Documentation

Développement et Contribution

Types de Contribution

  • 🐛 Correction de bugs : Découvrir et corriger les défauts du système.
  • ✨ Nouvelles fonctionnalités : Proposer et implémenter de nouvelles fonctionnalités.
  • 📚 Amélioration de la documentation : Compléter la documentation du projet.
  • 🧪 Cas de test : Écrire des tests unitaires et des tests d'intégration.
  • 🎨 Optimisation UI/UX : Améliorer l'interface utilisateur et l'expérience utilisateur.

Normes de Développement

Processus de Soumission

  1. Forker le projet vers votre compte GitHub personnel.
  2. Créer une branche de fonctionnalité : git checkout -b feature/amazing-feature.
  3. Soumettre les modifications : git commit -m 'Add amazing feature'.
  4. Pousser la branche : git push origin feature/amazing-feature.
  5. Créer une Pull Request et décrire en détail les modifications.

Avantages et Caractéristiques

  1. Stabilité de niveau entreprise : Développé par l'équipe Tencent, validé dans des environnements de production à grande échelle.
  2. Prêt à l'emploi : Déploiement Docker en un clic, interface Web intuitive.
  3. Technologie avancée : Basé sur les dernières technologies RAG et les capacités des grands modèles.
  4. Hautement personnalisable : Conception modulaire, prend en charge une extension et une intégration flexibles.
  5. Sécurité des données : Prend en charge le déploiement privé, contrôle total et autonome des données.
  6. Intégration écosystémique : Profondément intégré à l'écosystème WeChat, prend en charge de multiples scénarios d'application.

Résumé

WeKnora est un cadre de questions-réponses documentaires d'entreprise puissant et technologiquement avancé. Il offre non seulement une pile technologique RAG complète, mais aussi une excellente facilité d'utilisation et une grande extensibilité. Que ce soit pour la gestion des connaissances internes d'une entreprise, l'analyse de littérature scientifique ou le support client, WeKnora peut fournir des solutions efficaces et précises.

Grâce à son approche open source, WeKnora offre aux développeurs et aux entreprises un point de départ de haute qualité, rendant la construction de systèmes intelligents de questions-réponses documentaires simple et efficace.

Star History Chart