Home
Login

Ein wissensgraphbasiertes Retrieval-Augmented-Generation-System, das durch LLMs automatisch strukturierte Wissensgraphen aus Text extrahiert und die RAG-Leistung verbessert.

MITPython 25.9kmicrosoft Last Updated: 2025-06-18

Microsoft GraphRAG Projekt – Detaillierte Beschreibung

Projektübersicht

GraphRAG (Graphs + Retrieval Augmented Generation) ist ein Open-Source-Projekt, das von Microsoft Research entwickelt wurde. Es handelt sich um ein modulares, graphbasiertes Retrieval-Augmented-Generation-System. Das Projekt kombiniert Textextraktion, Netzwerkanalyse und Large Language Model (LLM) Prompting mit Zusammenfassungserstellung, um ein End-to-End-System zu bilden, das speziell für das tiefe Verständnis von Textdatensätzen entwickelt wurde.

Kerntechnische Merkmale

1. Automatischer Aufbau von Wissensgraphen

GraphRAG verwendet Large Language Models (LLMs), um automatisch reichhaltige Wissensgraphen aus beliebigen Textdokumentensammlungen zu extrahieren. Eines der aufregendsten Merkmale dieses graphbasierten Datenindexes ist seine Fähigkeit, die semantische Struktur der Daten vor jeder Benutzerabfrage zu berichten.

2. Community-Erkennung und Hierarchie

Das System extrahiert nicht nur Entitäten und Beziehungen, sondern erstellt auch Community-Hierarchien, generiert Zusammenfassungen dieser Communities und nutzt diese Strukturen dann bei der Ausführung von RAG-basierten Aufgaben.

3. Verbesserte Retrieval-Fähigkeiten

Durch die Erstellung eines Wissensgraphen auf der Grundlage des eingegebenen Korpus verbessert GraphRAG den "Retrieval"-Teil von RAG erheblich, füllt das Kontextfenster mit relevanteren Inhalten und führt so zu besseren Antworten und der Erfassung von Evidenzquellen.

Hauptfunktionsmodule

Datenpipeline und Transformationssuite

Das GraphRAG-Projekt ist eine Datenpipeline und Transformationssuite, die speziell entwickelt wurde, um die Leistungsfähigkeit von Large Language Models zu nutzen, um aussagekräftige strukturierte Daten aus unstrukturiertem Text zu extrahieren.

Abfragesystem

  • Globale Suche: Fähigkeit, komplexe Fragen zu beantworten, die Kenntnisse des gesamten Datensatzes erfordern
  • Lokale Suche: Präzise Abfragen für bestimmte Entitäten oder Konzepte
  • Vektor-RAG-Vergleich: Enthält eine einfache Implementierung von Basic Vector RAG, um den Vergleich der Suchergebnisse für verschiedene Arten von Fragen zu erleichtern

CLI und Beschleuniger

Das Projekt bietet eine Befehlszeilenschnittstelle (CLI) und GraphRAG-Beschleunigerlösungen, um die Benutzererfahrung für Entwickler und Benutzer zu vereinfachen.

Technische Architektur

Kernprozess

  1. Textextraktion: Extrahieren von Entitäten und Beziehungen aus rohem Text
  2. Graphaufbau: Umwandlung der identifizierten Entitäten und Beziehungen in ein Graphformat
  3. Community-Analyse: Identifizierung von Community-Strukturen im Graph
  4. Zusammenfassungserstellung: Generierung von Zusammenfassungen für die identifizierten Communities
  5. Erweiterte Abfrage: Nutzung dieser Strukturen zur Erweiterung von Prompts bei der Abfrage

Ausgabeprodukte

GraphRAG erstellt mehrere Ausgabeprodukte, um das indizierte Wissensmodell zu speichern. Diese Produkte werden in zukünftigen Versionen kontinuierlich aktualisiert und iteriert.

Anwendungsbereiche

Komplexe Datenentdeckung

GraphRAG eignet sich besonders für Szenarien, in denen komplexe Muster und Beziehungen aus großen Mengen an Textdaten entdeckt werden müssen und globale Fragen beantwortet werden müssen, die von herkömmlichen RAG-Systemen nur schwer zu bearbeiten sind.

Narrative private Daten

Für private Datensätze, die reichhaltige narrative Inhalte enthalten, kann GraphRAG die Entdeckungsmöglichkeiten von LLMs in diesen Daten freisetzen.

Forschung und Analyse

Das System kann Forschungsfragen generieren, Wissensdatenbanken optimieren, Benutzerprompts verbessern und Tools erstellen, die die Intelligenz von KI-Agenten verbessern.

Installation und Verwendung

Schnellstart

Das Projekt bietet eine einfache Option zur Installation von PyPI, einschließlich eines vollständigen End-to-End-Beispiels, das zeigt, wie das System verwendet wird, um Text zu indizieren und indizierte Daten zu verwenden, um Fragen zu Dokumenten zu beantworten.

Konfigurationsanforderungen

  • Die Initialisierung des Arbeitsbereichs erfordert die Ausführung des Befehls graphrag init
  • Erstellung der Konfigurationsdateien .env und settings.yaml
  • Die Konfiguration von LLM-API-Schlüsseln und zugehörigen Parametern ist erforderlich

Datenvorbereitung

Das System unterstützt die Eingabe verschiedener Textformate und kann große Dokumentensammlungen verarbeiten und entsprechende Wissensgraphen erstellen.

Technische Vorteile

Verbesserungen gegenüber herkömmlichem RAG

  • Besseres Kontextverständnis: Bereitstellung umfassenderer Kontextinformationen durch Wissensgraphen
  • Globale Schlussfolgerungsfähigkeit: Fähigkeit, komplexe Fragen zu beantworten, die die Integration mehrerer Dokumentinformationen erfordern
  • Strukturierte Wissensdarstellung: Umwandlung von unstrukturiertem Text in eine strukturierte Wissensdarstellung
  • Interpretierbarkeit: Bereitstellung von Evidenzquellen und Rückverfolgbarkeit von Schlussfolgerungspfaden

Open-Source-Ökosystem

Als Open-Source-Projekt fördert GraphRAG die Zusammenarbeit und Entwicklung in Wissenschaft und Industrie im Bereich der graphbasierten RAG-Technologie.

Zusammenfassung

Microsoft GraphRAG stellt einen wichtigen Fortschritt in der Retrieval-Augmented-Generation-Technologie dar. Durch die Kombination von Wissensgraphen mit Large Language Models werden die Fähigkeiten von Textverständnis- und Frage-Antwort-Systemen erheblich verbessert. Es ist nicht nur ein technisches Werkzeug, sondern auch ein wichtiger Meilenstein, um die Entwicklung von KI im Bereich der komplexen Textanalyse voranzutreiben.