Home
Login

知識グラフに基づく検索拡張生成システム。LLMを用いてテキストから構造化された知識グラフを自動的に抽出し、RAGの性能を向上させます。

MITPython 25.9kmicrosoft Last Updated: 2025-06-18

Microsoft GraphRAG プロジェクト詳細

プロジェクト概要

GraphRAG(Graphs + Retrieval Augmented Generation)は、Microsoft Researchが開発したオープンソースプロジェクトで、モジュール化されたグラフベースの検索拡張生成システムです。テキスト抽出、ネットワーク分析、大規模言語モデルのプロンプトと要約生成を組み合わせ、テキストデータセットを深く理解するためのエンドツーエンドのシステムを形成します。

核心的な技術的特徴

1. 知識グラフの自動構築

GraphRAGは、大規模言語モデル(LLM)を使用して、あらゆるテキストドキュメントの集合から豊富な知識グラフを自動的に抽出します。このグラフベースのデータインデックスの最もエキサイティングな機能の1つは、ユーザーのクエリの前にデータのセマンティック構造を報告できることです。

2. コミュニティ検出と階層構造

システムはエンティティと関係を抽出するだけでなく、コミュニティの階層構造を構築し、これらのコミュニティの要約を生成し、RAGベースのタスクを実行する際にこれらの構造を利用します。

3. 強化された検索能力

GraphRAGは、入力コーパスに基づいて知識グラフを作成することにより、RAGの「検索」部分を大幅に改善し、より関連性の高いコンテンツでコンテキストウィンドウを埋め、より良い回答を生成し、証拠のソースをキャプチャします。

主要な機能モジュール

データパイプラインと変換スイート

GraphRAGプロジェクトは、非構造化テキストから意味のある構造化データを抽出するために、大規模言語モデルの力を利用するように特別に設計されたデータパイプラインと変換スイートです。

クエリシステム

  • グローバル検索: データセット全体の知識を必要とする複雑な質問に答えることができます。
  • ローカル検索: 特定のエンティティまたは概念に対する正確なクエリ。
  • ベクトルRAG比較: 基本的なベクトルRAGの簡単な実装が含まれており、さまざまなタイプの質問の検索結果を比較できます。

CLIとアクセラレータ

プロジェクトは、コマンドラインインターフェイス(CLI)とGraphRAGアクセラレータソリューションを提供し、開発者とユーザーの使用体験を簡素化します。

技術アーキテクチャ

コアプロセス

  1. テキスト抽出: 元のテキストからエンティティと関係を抽出します。
  2. グラフ構築: 識別されたエンティティと関係をグラフ形式に変換します。
  3. コミュニティ分析: グラフ内のコミュニティ構造を識別します。
  4. 要約生成: 識別されたコミュニティの要約を生成します。
  5. 拡張クエリ: クエリ時にこれらの構造を利用してプロンプトを強化します。

出力成果物

GraphRAGは、インデックス付きの知識モデルを保存するために複数の出力成果物を作成します。これらの成果物は、将来のバージョンで継続的に更新および反復されます。

アプリケーションシナリオ

複雑なデータ発見

GraphRAGは、大量のテキストデータから複雑なパターンと関係を発見する必要があるシナリオに特に適しており、従来のRAGシステムでは処理が難しいグローバルな質問に答えることができます。

ナラティブなプライベートデータ

豊富なナラティブコンテンツを含むプライベートデータセットの場合、GraphRAGはこれらのデータに関するLLMの発見能力を解放できます。

研究と分析

システムは、研究課題を生成し、知識ベースを最適化し、ユーザープロンプトを改善し、AIエージェントのインテリジェンスを向上させるツールを作成できます。

インストールと使用

クイックスタート

プロジェクトは、PyPIからの簡単なインストールオプションを提供し、システムを使用してテキストをインデックス化し、インデックス付きデータを使用してドキュメントに関する質問に答える方法を示す完全なエンドツーエンドの例が含まれています。

構成要件

  • ワークスペースを初期化するには、graphrag initコマンドを実行する必要があります。
  • .envおよびsettings.yaml構成ファイルを作成します。
  • LLM APIキーと関連パラメータを構成する必要があります。

データ準備

システムは、さまざまなテキスト形式の入力をサポートし、大規模なドキュメントコレクションを処理し、対応する知識グラフを構築できます。

技術的優位性

従来のRAGからの改善

  • より良いコンテキスト理解: 知識グラフを通じて、より豊富なコンテキスト情報を提供します。
  • グローバルな推論能力: 複数のドキュメント情報を統合する必要がある複雑な質問に答えることができます。
  • 構造化された知識表現: 非構造化テキストを構造化された知識表現に変換します。
  • 説明可能性: 証拠のソースと推論パスのトレーサビリティを提供します。

オープンソースエコシステム

オープンソースプロジェクトとして、GraphRAGは、グラフ拡張RAG技術における学術界と産業界のコラボレーションと発展を促進します。

まとめ

Microsoft GraphRAGは、検索拡張生成技術の重要な進歩を表しており、知識グラフと大規模言語モデルを組み合わせることで、テキスト理解と質問応答システムの能力を大幅に向上させます。これは単なる技術ツールではなく、複雑なテキスト分析の分野におけるAIの発展を推進する重要なマイルストーンです。