Home
Login

Sistema de generación aumentada por recuperación basado en grafos de conocimiento, que extrae automáticamente grafos de conocimiento estructurados del texto a través de LLM y mejora el rendimiento de RAG.

MITPython 25.9kmicrosoft Last Updated: 2025-06-18

Microsoft GraphRAG: Descripción Detallada del Proyecto

Resumen del Proyecto

GraphRAG (Graphs + Retrieval Augmented Generation) es un proyecto de código abierto desarrollado por Microsoft Research, un sistema modular de generación aumentada por recuperación basado en grafos. El proyecto combina la extracción de texto, el análisis de redes y la generación de resúmenes con indicaciones de modelos de lenguaje grandes, formando un sistema de extremo a extremo especializado en la comprensión profunda de conjuntos de datos de texto.

Características Técnicas Clave

1. Construcción Automática de Grafos de Conocimiento

GraphRAG utiliza modelos de lenguaje grandes (LLM) para extraer automáticamente grafos de conocimiento ricos de cualquier colección de documentos de texto. Una de las características más interesantes de este índice de datos basado en grafos es su capacidad para informar la estructura semántica de los datos antes de cualquier consulta del usuario.

2. Detección de Comunidades y Jerarquía

El sistema no solo extrae entidades y relaciones, sino que también construye jerarquías de comunidades, genera resúmenes de estas comunidades y luego utiliza estas estructuras al realizar tareas basadas en RAG.

3. Capacidad de Recuperación Mejorada

Al crear un grafo de conocimiento basado en el corpus de entrada, GraphRAG mejora enormemente la parte de "recuperación" de RAG, llenando la ventana de contexto con contenido de mayor relevancia, lo que resulta en mejores respuestas y captura de fuentes de evidencia.

Módulos Funcionales Principales

Tubería de Datos y Conjunto de Transformación

El proyecto GraphRAG es una tubería de datos y un conjunto de transformación, diseñado específicamente para aprovechar el poder de los modelos de lenguaje grandes para extraer datos estructurados significativos de texto no estructurado.

Sistema de Consulta

  • Búsqueda Global: Capaz de responder preguntas complejas que requieren conocimiento de todo el conjunto de datos.
  • Búsqueda Local: Consultas precisas dirigidas a entidades o conceptos específicos.
  • Comparación Vectorial RAG: Incluye una implementación simple de RAG vectorial básica, lo que facilita la comparación de los resultados de búsqueda para diferentes tipos de preguntas.

CLI y Aceleradores

El proyecto proporciona una interfaz de línea de comandos (CLI) y una solución de acelerador GraphRAG, lo que simplifica la experiencia del desarrollador y del usuario.

Arquitectura Técnica

Flujo Central

  1. Extracción de Texto: Extracción de entidades y relaciones del texto original.
  2. Construcción de Grafos: Conversión de las entidades y relaciones identificadas en formato de grafo.
  3. Análisis de Comunidades: Identificación de estructuras comunitarias en el grafo.
  4. Generación de Resúmenes: Generación de resúmenes para las comunidades identificadas.
  5. Consulta Aumentada: Utilización de estas estructuras para mejorar las indicaciones durante la consulta.

Productos de Salida

GraphRAG crea múltiples productos de salida para almacenar el modelo de conocimiento indexado, y estos productos se actualizarán e iterarán continuamente en futuras versiones.

Escenarios de Aplicación

Descubrimiento de Datos Complejos

GraphRAG es particularmente adecuado para escenarios que requieren el descubrimiento de patrones y relaciones complejos a partir de grandes cantidades de datos de texto, y es capaz de responder preguntas globales que los sistemas RAG tradicionales tienen dificultades para manejar.

Datos Privados Narrativos

Para conjuntos de datos privados que contienen contenido narrativo rico, GraphRAG puede desbloquear la capacidad de descubrimiento de LLM en estos datos.

Investigación y Análisis

El sistema puede generar preguntas de investigación, optimizar bases de conocimiento, mejorar las indicaciones del usuario y crear herramientas que mejoren la inteligencia de los agentes de IA.

Instalación y Uso

Inicio Rápido

El proyecto proporciona una opción simple para instalar desde PyPI, que incluye un ejemplo completo de extremo a extremo que muestra cómo usar el sistema para indexar texto y usar datos indexados para responder preguntas sobre documentos.

Requisitos de Configuración

  • Inicializar el espacio de trabajo requiere ejecutar el comando graphrag init.
  • Crear archivos de configuración .env y settings.yaml.
  • Requiere configurar la clave API de LLM y los parámetros relacionados.

Preparación de Datos

El sistema admite la entrada de múltiples formatos de texto, es capaz de procesar colecciones de documentos a gran escala y establecer los grafos de conocimiento correspondientes.

Ventajas Técnicas

Mejoras en Comparación con RAG Tradicional

  • Mejor Comprensión del Contexto: Proporciona información de contexto más rica a través de grafos de conocimiento.
  • Capacidad de Razonamiento Global: Capaz de responder preguntas complejas que requieren la integración de información de múltiples documentos.
  • Representación Estructurada del Conocimiento: Convierte texto no estructurado en una representación estructurada del conocimiento.
  • Interpretabilidad: Proporciona trazabilidad de las fuentes de evidencia y las rutas de razonamiento.

Ecosistema de Código Abierto

Como proyecto de código abierto, GraphRAG promueve la colaboración y el desarrollo en tecnologías RAG mejoradas con grafos entre la academia y la industria.

Resumen

Microsoft GraphRAG representa un avance importante en la tecnología de generación aumentada por recuperación, mejorando significativamente las capacidades de los sistemas de comprensión de texto y respuesta a preguntas al combinar grafos de conocimiento con modelos de lenguaje grandes. No es solo una herramienta técnica, sino también un hito importante en el avance de la IA en el campo del análisis de texto complejo.