GraphRAG (Graphs + Retrieval Augmented Generation)는 마이크로소프트 연구소에서 개발한 오픈 소스 프로젝트로, 모듈화된 그래프 기반 검색 증강 생성 시스템입니다. 이 프로젝트는 텍스트 추출, 네트워크 분석, 대규모 언어 모델 프롬프트 및 요약 생성을 결합하여 텍스트 데이터 세트를 심층적으로 이해하는 데 특화된 엔드 투 엔드 시스템을 형성합니다.
GraphRAG는 대규모 언어 모델(LLM)을 사용하여 모든 텍스트 문서 모음에서 풍부한 지식 그래프를 자동으로 추출합니다. 이 그래프 기반 데이터 인덱싱의 가장 흥미로운 특징 중 하나는 사용자 쿼리 이전에 데이터의 의미 구조를 보고할 수 있다는 것입니다.
시스템은 엔터티와 관계를 추출할 뿐만 아니라 커뮤니티 계층 구조를 구축하고, 이러한 커뮤니티의 요약을 생성한 다음, RAG 기반 작업을 수행할 때 이러한 구조를 활용합니다.
입력 코퍼스를 기반으로 지식 그래프를 생성함으로써 GraphRAG는 RAG의 "검색" 부분을 크게 개선하여 더 높은 관련성의 콘텐츠로 컨텍스트 창을 채우고, 더 나은 답변을 생성하고 증거 출처를 캡처합니다.
GraphRAG 프로젝트는 비정형 텍스트에서 의미 있는 구조화된 데이터를 추출하기 위해 대규모 언어 모델의 힘을 활용하도록 특별히 설계된 데이터 파이프라인 및 변환 스위트입니다.
이 프로젝트는 개발자와 사용자의 사용 경험을 단순화하는 명령줄 인터페이스(CLI) 및 GraphRAG 가속기 솔루션을 제공합니다.
GraphRAG는 인덱싱된 지식 모델을 저장하기 위해 여러 출력 산출물을 생성하며, 이러한 산출물은 향후 버전에서 지속적으로 업데이트되고 반복됩니다.
GraphRAG는 대량의 텍스트 데이터에서 복잡한 패턴과 관계를 발견해야 하는 시나리오에 특히 적합하며, 기존 RAG 시스템이 처리하기 어려운 글로벌 문제를 해결할 수 있습니다.
풍부한 서술 내용을 포함하는 개인 데이터 세트의 경우 GraphRAG는 이러한 데이터에 대한 LLM의 발견 능력을 잠금 해제할 수 있습니다.
시스템은 연구 문제를 생성하고, 지식 기반을 최적화하고, 사용자 프롬프트를 개선하고, AI 에이전트의 지능을 향상시키는 도구를 만들 수 있습니다.
이 프로젝트는 PyPI에서 설치하는 간단한 옵션을 제공하며, 시스템을 사용하여 텍스트를 인덱싱하고 인덱싱된 데이터를 사용하여 문서에 대한 질문에 답변하는 방법을 보여주는 완전한 엔드 투 엔드 예제를 포함합니다.
graphrag init
명령을 실행해야 합니다..env
및 settings.yaml
구성 파일을 만듭니다.시스템은 다양한 텍스트 형식의 입력을 지원하며, 대규모 문서 모음을 처리하고 해당 지식 그래프를 구축할 수 있습니다.
오픈 소스 프로젝트인 GraphRAG는 그래프 증강 RAG 기술 분야에서 학계와 산업계의 협력과 발전을 촉진합니다.
Microsoft GraphRAG는 검색 증강 생성 기술의 중요한 진전을 나타내며, 지식 그래프와 대규모 언어 모델을 결합하여 텍스트 이해 및 질문 응답 시스템의 능력을 크게 향상시킵니다. 이는 단순한 기술 도구일 뿐만 아니라 복잡한 텍스트 분석 분야에서 AI 발전을 추진하는 중요한 이정표입니다.