GraphRAG(Graphs + Retrieval Augmented Generation)は、Microsoft Researchが開発したオープンソースプロジェクトで、モジュール化されたグラフベースの検索拡張生成システムです。テキスト抽出、ネットワーク分析、大規模言語モデルのプロンプトと要約生成を組み合わせ、テキストデータセットを深く理解するためのエンドツーエンドのシステムを形成します。
GraphRAGは、大規模言語モデル(LLM)を使用して、あらゆるテキストドキュメントの集合から豊富な知識グラフを自動的に抽出します。このグラフベースのデータインデックスの最もエキサイティングな機能の1つは、ユーザーのクエリの前にデータのセマンティック構造を報告できることです。
システムはエンティティと関係を抽出するだけでなく、コミュニティの階層構造を構築し、これらのコミュニティの要約を生成し、RAGベースのタスクを実行する際にこれらの構造を利用します。
GraphRAGは、入力コーパスに基づいて知識グラフを作成することにより、RAGの「検索」部分を大幅に改善し、より関連性の高いコンテンツでコンテキストウィンドウを埋め、より良い回答を生成し、証拠のソースをキャプチャします。
GraphRAGプロジェクトは、非構造化テキストから意味のある構造化データを抽出するために、大規模言語モデルの力を利用するように特別に設計されたデータパイプラインと変換スイートです。
プロジェクトは、コマンドラインインターフェイス(CLI)とGraphRAGアクセラレータソリューションを提供し、開発者とユーザーの使用体験を簡素化します。
GraphRAGは、インデックス付きの知識モデルを保存するために複数の出力成果物を作成します。これらの成果物は、将来のバージョンで継続的に更新および反復されます。
GraphRAGは、大量のテキストデータから複雑なパターンと関係を発見する必要があるシナリオに特に適しており、従来のRAGシステムでは処理が難しいグローバルな質問に答えることができます。
豊富なナラティブコンテンツを含むプライベートデータセットの場合、GraphRAGはこれらのデータに関するLLMの発見能力を解放できます。
システムは、研究課題を生成し、知識ベースを最適化し、ユーザープロンプトを改善し、AIエージェントのインテリジェンスを向上させるツールを作成できます。
プロジェクトは、PyPIからの簡単なインストールオプションを提供し、システムを使用してテキストをインデックス化し、インデックス付きデータを使用してドキュメントに関する質問に答える方法を示す完全なエンドツーエンドの例が含まれています。
graphrag init
コマンドを実行する必要があります。.env
およびsettings.yaml
構成ファイルを作成します。システムは、さまざまなテキスト形式の入力をサポートし、大規模なドキュメントコレクションを処理し、対応する知識グラフを構築できます。
オープンソースプロジェクトとして、GraphRAGは、グラフ拡張RAG技術における学術界と産業界のコラボレーションと発展を促進します。
Microsoft GraphRAGは、検索拡張生成技術の重要な進歩を表しており、知識グラフと大規模言語モデルを組み合わせることで、テキスト理解と質問応答システムの能力を大幅に向上させます。これは単なる技術ツールではなく、複雑なテキスト分析の分野におけるAIの発展を推進する重要なマイルストーンです。