Home
Login

基於知識圖譜的檢索增強生成系統,通過 LLM 自動從文本中提取結構化知識圖譜並增強 RAG 性能

MITPython 25.9kmicrosoft Last Updated: 2025-06-18

Microsoft GraphRAG 項目詳細介紹

項目概述

GraphRAG(Graphs + Retrieval Augmented Generation)是微軟研究院開發的一個開源項目,它是一個模組化的基於圖的檢索增強生成系統。該項目結合了文本提取、網路分析和大語言模型提示與摘要生成,形成了一個端到端的系統,專門用於深度理解文本數據集。

核心技術特點

1. 知識圖譜自動構建

GraphRAG 使用大語言模型(LLM)自動從任何文本文檔集合中提取豐富的知識圖譜。這個基於圖的數據索引最令人興奮的特性之一是它能夠在任何用戶查詢之前報告數據的語義結構。

2. 社區檢測與層次結構

系統不僅提取實體和關係,還會構建社區層次結構,生成這些社區的摘要,然後在執行基於 RAG 的任務時利用這些結構。

3. 增強的檢索能力

通過創建基於輸入語料庫的知識圖譜,GraphRAG 極大地改善了 RAG 的 "檢索" 部分,用更高相關性的內容填充上下文窗口,從而產生更好的答案並捕獲證據來源。

主要功能模塊

數據管道與轉換套件

GraphRAG 項目是一個數據管道和轉換套件,專門設計用於利用大語言模型的力量從非結構化文本中提取有意義的結構化數據。

查詢系統

  • 全局搜索:能夠回答需要整個數據集知識的複雜問題
  • 本地搜索:針對特定實體或概念的精確查詢
  • 向量 RAG 比較:包含基本向量 RAG 的簡單實現,便於比較不同類型問題的搜索結果

CLI 和加速器

項目提供了命令行界面(CLI)和 GraphRAG 加速器解決方案,簡化了開發者和用戶的使用體驗。

技術架構

核心流程

  1. 文本提取:從原始文本中提取實體和關係
  2. 圖構建:將識別的實體和關係轉換為圖格式
  3. 社區分析:識別圖中的社區結構
  4. 摘要生成:為識別的社區生成摘要
  5. 增強查詢:在查詢時利用這些結構增強提示

輸出產物

GraphRAG 創建多個輸出產物來存儲索引的知識模型,這些產物在未來版本中會持續更新和迭代。

應用場景

複雜數據發現

GraphRAG 特別適用於需要從大量文本數據中發現複雜模式和關係的場景,能夠回答傳統 RAG 系統難以處理的全局性問題。

敘述性私有數據

對於包含豐富敘述內容的私有數據集,GraphRAG 能夠解鎖 LLM 在這些數據上的發現能力。

研究與分析

系統能夠生成研究問題,優化知識庫,改進用戶提示,創建提升 AI 代理智能的工具。

安裝與使用

快速開始

項目提供了從 PyPI 安裝的簡單選項,包含完整的端到端示例,展示如何使用系統索引文本並使用索引數據回答關於文檔的問題。

配置要求

  • 初始化工作空間需要運行 graphrag init 命令
  • 創建 .envsettings.yaml 配置文件
  • 需要配置 LLM API 密鑰和相關參數

數據準備

系統支持多種文本格式的輸入,能夠處理大規模文檔集合並建立相應的知識圖譜。

技術優勢

相比傳統 RAG 的改進

  • 更好的上下文理解:通過知識圖譜提供更豐富的上下文信息
  • 全局推理能力:能夠回答需要整合多個文檔信息的複雜問題
  • 結構化知識表示:將非結構化文本轉換為結構化的知識表示
  • 可解釋性:提供證據來源和推理路徑的可追溯性

開源生態

作為開源項目,GraphRAG 促進了學術界和工業界在圖增強 RAG 技術方面的協作和發展。

總結

Microsoft GraphRAG 代表了檢索增強生成技術的重要進步,通過將知識圖譜與大語言模型相結合,顯著提升了文本理解和問答系統的能力。它不僅是一個技術工具,更是推動 AI 在複雜文本分析領域發展的重要里程碑。