microsoft/graphragPlease refer to the latest official releases for information GitHub Homepage

지식 그래프 기반 검색 증강 생성 시스템으로, LLM을 통해 텍스트에서 자동으로 구조화된 지식 그래프를 추출하고 RAG 성능을 향상시킵니다.

MITPython 25.9kmicrosoft Last Updated: 2025-06-18

Microsoft GraphRAG 프로젝트 상세 소개

프로젝트 개요

GraphRAG (Graphs + Retrieval Augmented Generation)는 마이크로소프트 연구소에서 개발한 오픈 소스 프로젝트로, 모듈화된 그래프 기반 검색 증강 생성 시스템입니다. 이 프로젝트는 텍스트 추출, 네트워크 분석, 대규모 언어 모델 프롬프트 및 요약 생성을 결합하여 텍스트 데이터 세트를 심층적으로 이해하는 데 특화된 엔드 투 엔드 시스템을 형성합니다.

핵심 기술 특징

1. 지식 그래프 자동 구축

GraphRAG는 대규모 언어 모델(LLM)을 사용하여 모든 텍스트 문서 모음에서 풍부한 지식 그래프를 자동으로 추출합니다. 이 그래프 기반 데이터 인덱싱의 가장 흥미로운 특징 중 하나는 사용자 쿼리 이전에 데이터의 의미 구조를 보고할 수 있다는 것입니다.

2. 커뮤니티 감지 및 계층 구조

시스템은 엔터티와 관계를 추출할 뿐만 아니라 커뮤니티 계층 구조를 구축하고, 이러한 커뮤니티의 요약을 생성한 다음, RAG 기반 작업을 수행할 때 이러한 구조를 활용합니다.

3. 향상된 검색 능력

입력 코퍼스를 기반으로 지식 그래프를 생성함으로써 GraphRAG는 RAG의 "검색" 부분을 크게 개선하여 더 높은 관련성의 콘텐츠로 컨텍스트 창을 채우고, 더 나은 답변을 생성하고 증거 출처를 캡처합니다.

주요 기능 모듈

데이터 파이프라인 및 변환 스위트

GraphRAG 프로젝트는 비정형 텍스트에서 의미 있는 구조화된 데이터를 추출하기 위해 대규모 언어 모델의 힘을 활용하도록 특별히 설계된 데이터 파이프라인 및 변환 스위트입니다.

쿼리 시스템

글로벌 검색: 전체 데이터 세트의 지식이 필요한 복잡한 질문에 답변할 수 있습니다.
로컬 검색: 특정 엔터티 또는 개념에 대한 정확한 쿼리
벡터 RAG 비교: 다양한 유형의 질문에 대한 검색 결과를 쉽게 비교할 수 있도록 기본 벡터 RAG의 간단한 구현을 포함합니다.

CLI 및 가속기

이 프로젝트는 개발자와 사용자의 사용 경험을 단순화하는 명령줄 인터페이스(CLI) 및 GraphRAG 가속기 솔루션을 제공합니다.

기술 아키텍처

핵심 프로세스

텍스트 추출: 원시 텍스트에서 엔터티와 관계를 추출합니다.
그래프 구축: 식별된 엔터티와 관계를 그래프 형식으로 변환합니다.
커뮤니티 분석: 그래프에서 커뮤니티 구조를 식별합니다.
요약 생성: 식별된 커뮤니티에 대한 요약을 생성합니다.
증강 쿼리: 쿼리 시 이러한 구조를 활용하여 프롬프트를 강화합니다.

출력 산출물

GraphRAG는 인덱싱된 지식 모델을 저장하기 위해 여러 출력 산출물을 생성하며, 이러한 산출물은 향후 버전에서 지속적으로 업데이트되고 반복됩니다.

응용 시나리오

복잡한 데이터 발견

GraphRAG는 대량의 텍스트 데이터에서 복잡한 패턴과 관계를 발견해야 하는 시나리오에 특히 적합하며, 기존 RAG 시스템이 처리하기 어려운 글로벌 문제를 해결할 수 있습니다.

서술적 개인 데이터

풍부한 서술 내용을 포함하는 개인 데이터 세트의 경우 GraphRAG는 이러한 데이터에 대한 LLM의 발견 능력을 잠금 해제할 수 있습니다.

연구 및 분석

시스템은 연구 문제를 생성하고, 지식 기반을 최적화하고, 사용자 프롬프트를 개선하고, AI 에이전트의 지능을 향상시키는 도구를 만들 수 있습니다.

설치 및 사용

빠른 시작

이 프로젝트는 PyPI에서 설치하는 간단한 옵션을 제공하며, 시스템을 사용하여 텍스트를 인덱싱하고 인덱싱된 데이터를 사용하여 문서에 대한 질문에 답변하는 방법을 보여주는 완전한 엔드 투 엔드 예제를 포함합니다.

구성 요구 사항

작업 공간을 초기화하려면 graphrag init 명령을 실행해야 합니다.
.env 및 settings.yaml 구성 파일을 만듭니다.
LLM API 키 및 관련 매개변수를 구성해야 합니다.

데이터 준비

시스템은 다양한 텍스트 형식의 입력을 지원하며, 대규모 문서 모음을 처리하고 해당 지식 그래프를 구축할 수 있습니다.

기술적 장점

기존 RAG에 비해 개선된 점

더 나은 컨텍스트 이해: 지식 그래프를 통해 더 풍부한 컨텍스트 정보를 제공합니다.
글로벌 추론 능력: 여러 문서 정보를 통합해야 하는 복잡한 질문에 답변할 수 있습니다.
구조화된 지식 표현: 비정형 텍스트를 구조화된 지식 표현으로 변환합니다.
설명 가능성: 증거 출처 및 추론 경로의 추적 가능성을 제공합니다.

오픈 소스 생태계

오픈 소스 프로젝트인 GraphRAG는 그래프 증강 RAG 기술 분야에서 학계와 산업계의 협력과 발전을 촉진합니다.

요약

Microsoft GraphRAG는 검색 증강 생성 기술의 중요한 진전을 나타내며, 지식 그래프와 대규모 언어 모델을 결합하여 텍스트 이해 및 질문 응답 시스템의 능력을 크게 향상시킵니다. 이는 단순한 기술 도구일 뿐만 아니라 복잡한 텍스트 분석 분야에서 AI 발전을 추진하는 중요한 이정표입니다.