Login

Outil de visualisation RAG open source, aidant les utilisateurs à comprendre et à déboguer intuitivement les systèmes de génération augmentée par la récupération.

MITJupyter Notebook 1.1kgabrielchuaRAGxplorer Last Updated: 2025-01-03

RAGxplorer - Outil de visualisation RAG open source 🔮

Aperçu du projet

RAGxplorer est un outil open source conçu spécifiquement pour la visualisation des systèmes de génération augmentée par la récupération (RAG). Développé par Gabriel Chua, ce projet vise à aider les développeurs et les chercheurs à mieux comprendre et déboguer les processus de récupération de documents et de correspondance de similarité sémantique dans les applications RAG.

Fonctionnalités principales

1. Traitement et chargement de documents

  • Prise en charge des documents PDF : Permet de charger et de traiter directement les fichiers PDF.
  • Découpage de documents : Divise automatiquement les documents en blocs de texte adaptés à la vectorisation.
  • Prise en charge de multiples formats de documents : Prend en charge une variété de formats de documents.

2. Visualisation des plongements vectoriels

  • Visualisation de l'espace d'intégration : Visualise la représentation des blocs de documents dans l'espace vectoriel.
  • Exploration de la similarité sémantique : Démontre visuellement les relations sémantiques entre les blocs de documents.
  • Prise en charge de plusieurs modèles d'intégration : Prend en charge différents modèles d'intégration pré-entraînés.

3. Visualisation des requêtes

  • Visualisation de la correspondance des requêtes : Affiche le processus de correspondance entre la requête et les blocs de documents.
  • Affichage des scores de similarité : Présente visuellement les scores de pertinence des résultats de récupération.
  • Requêtes interactives : Prend en charge les requêtes en temps réel et la visualisation des résultats.

Caractéristiques techniques

Pile technologique principale

  • Python : Langage de développement principal.
  • Streamlit : Cadre d'interface web.
  • Plongements vectoriels : Prend en charge plusieurs modèles d'intégration.
  • Bibliothèques de visualisation : Utilisées pour la visualisation et l'interaction des données.

Modèles d'intégration pris en charge

  • thenlper/gte-large : Modèle recommandé par défaut.
  • Autres modèles Hugging Face : Prend en charge les modèles d'intégration personnalisés.

Installation et utilisation

Méthode d'installation

pip install ragxplorer

Exemple d'utilisation de base

from ragxplorer import RAGxplorer

# Initialisation du client
client = RAGxplorer(embedding_model="thenlper/gte-large")

# Chargement d'un document PDF
client.load_pdf("presentation.pdf", verbose=True)

# Visualisation des résultats de la requête
client.visualize_query("What are the top revenue drivers for Microsoft?")

Démarrage rapide

Le projet fournit des tutoriels Jupyter notebook complets :

Démonstration en ligne

Scénarios d'application

1. Débogage des systèmes RAG

  • Évaluation de la qualité de la récupération : Évalue la précision et la pertinence de la récupération de documents.
  • Optimisation des paramètres : Ajuste les paramètres du système RAG grâce à la visualisation des résultats.
  • Analyse des performances : Analyse les performances du système sous différentes configurations.

2. Éducation et recherche

  • Enseignement des concepts RAG : Aide les apprenants à comprendre le fonctionnement des RAG.
  • Recherche académique : Fournit un outil de visualisation pour la recherche liée aux RAG.
  • Développement de prototypes : Permet de valider rapidement la conception des systèmes RAG.

3. Applications d'entreprise

  • Optimisation de la recherche de documents : Optimise les systèmes de recherche de documents internes à l'entreprise.
  • Gestion des connaissances : Visualise la structure organisationnelle des bases de connaissances d'entreprise.
  • Service client : Optimise les systèmes de service client basés sur RAG.

Avantages du projet

1. Open source et communauté

  • Licence MIT : Entièrement open source, libre d'utilisation et de modification.
  • Soutien de la communauté : Communauté de développeurs et de contributeurs active.
  • Mises à jour continues : Mises à jour régulières et améliorations des fonctionnalités.

2. Facilité d'utilisation

  • API simple : Conception d'API Python intuitive.
  • Interface web : Interface conviviale basée sur Streamlit.
  • Documentation détaillée : Tutoriels d'utilisation et exemples complets.

3. Extensibilité

  • Conception modulaire : Facile à étendre et à personnaliser.
  • Prise en charge multi-modèles : Prend en charge divers modèles d'intégration.
  • Mécanisme de plugins : Permet l'intégration d'autres outils et bibliothèques.

Architecture technique

Composants principaux

  1. Processeur de documents : Responsable du chargement et du prétraitement des documents.
  2. Moteur de vectorisation : Gère la vectorisation et l'intégration du texte.
  3. Moteur de visualisation : Génère l'interface de visualisation interactive.
  4. Processeur de requêtes : Traite les requêtes utilisateur et le calcul de similarité.

Flux de données

  1. Entrée de documentDécoupage de texteVectorisationStockage
  2. Entrée de requêteVectorisationCalcul de similaritéVisualisation des résultats

Résumé

RAGxplorer est un outil de visualisation RAG puissant et facile à utiliser, offrant aux développeurs un moyen efficace de comprendre et d'optimiser les systèmes RAG. Grâce à son interface de visualisation intuitive, les utilisateurs peuvent mieux déboguer et améliorer les applications d'IA basées sur la génération augmentée par la récupération.

Star History Chart