Home
Login

Herramienta de preguntas y respuestas inteligentes sobre documentos de código abierto basada en la tecnología RAG, que permite la interacción conversacional con sus documentos.

Apache-2.0Python 22.5kCinnamon Last Updated: 2025-06-11

Kotaemon - Herramienta de Preguntas y Respuestas Inteligentes sobre Documentos RAG de Código Abierto

Resumen del Proyecto

Kotaemon es una herramienta RAG (Retrieval-Augmented Generation - Generación Aumentada por Recuperación) de código abierto, diseñada específicamente para la interacción conversacional con documentos. El proyecto tiene como objetivo proporcionar a los usuarios finales y desarrolladores una interfaz de usuario RAG con todas las funciones, que satisfaga las necesidades de los usuarios para realizar preguntas y respuestas sobre documentos, y también ayude a los desarrolladores a construir sus propios pipelines RAG.

Características Principales

Funciones para el Usuario Final

  • Interfaz de Usuario Sencilla y Atractiva: Proporciona una interfaz amigable para preguntas y respuestas RAG.
  • Soporte para Múltiples LLM: Compatible con múltiples proveedores de API LLM (OpenAI, AzureOpenAI, Cohere, etc.) y LLM locales (a través de ollama y llama-cpp-python).
  • Instalación Sencilla: Proporciona scripts simples para un inicio rápido.
  • Soporte Multi-Usuario: Admite el inicio de sesión de múltiples usuarios, puede crear colecciones de documentos privadas/públicas, admite la colaboración y el intercambio.

Funciones para el Desarrollador

  • Framework de Pipeline RAG: Proporciona herramientas para construir pipelines de preguntas y respuestas sobre documentos RAG.
  • UI Personalizable: Construida sobre Gradio, permite ver los efectos reales del pipeline RAG.
  • Pipeline RAG Híbrido: Adopta un recuperador híbrido (texto completo y vectorial) y reordenación, asegurando la mejor calidad de recuperación.
  • Escalabilidad: Admite elementos de UI personalizados y múltiples estrategias de indexación y recuperación de documentos.

Funciones Avanzadas

  • Soporte para Preguntas y Respuestas Multimodales: Admite preguntas y respuestas sobre múltiples documentos que contienen gráficos y tablas, admite el análisis de documentos multimodales.
  • Funciones de Referencia Avanzadas: Proporciona información de referencia detallada para garantizar la corrección de las respuestas del LLM, se puede ver directamente el contenido de la referencia resaltado en el visor de PDF del navegador.
  • Métodos de Razonamiento Complejos: Admite la descomposición de problemas para responder preguntas complejas/de múltiples saltos, admite el razonamiento basado en Agentes, como ReAct, ReWOO, etc.
  • Interfaz de Configuración Configurable: Permite ajustar aspectos importantes del proceso de recuperación y generación en la UI (incluidos los prompts).

Arquitectura Técnica

Formatos de Documento Soportados

  • PDF, HTML, MHTML, XLSX
  • Soporte para más formatos a través de la biblioteca Unstructured (.doc, .docx, etc.)

Opciones de Almacenamiento de Datos

  • Almacenamiento de Documentos: Elasticsearch, LanceDB, SimpleFileDocumentStore
  • Almacenamiento Vectorial: ChromaDB, LanceDB, InMemory, Milvus, Qdrant

Soporte de Modelos LLM

  • Proveedores de API: OpenAI, Azure OpenAI, Cohere, Groq, etc.
  • Modelos Locales: Soporte para modelos en formato GGUF a través de Ollama y llama-cpp-python.

Integración de GraphRAG

El proyecto admite dos implementaciones de GraphRAG:

NanoGraphRAG (Recomendado)

  • Integración más directa con Kotaemon
  • Identificación automática del LLM predeterminado y el modelo de incrustación

MS GraphRAG

  • Implementación oficial de Microsoft GraphRAG
  • Solo admite la API de OpenAI u Ollama
  • Admite modelos locales y configuraciones personalizadas

Instalación y Despliegue

Despliegue con Docker (Recomendado)

Proporciona imágenes Docker Lite y Completas:

  • Lite: Admite tipos de archivos básicos, imagen más pequeña
  • Completa: Incluye el paquete unstructured, admite más tipos de archivos

Instalación Local

  1. Descargue la última versión del archivo release
  2. Configure el archivo .env
  3. Ejecute python app.py para iniciar el servicio
  4. El nombre de usuario y la contraseña predeterminados son admin

Personalización y Extensión

Personalización del Pipeline de Razonamiento

  • Se pueden agregar nuevas implementaciones .py en libs/ktem/ktem/reasoning/
  • Habilite el nuevo pipeline de razonamiento a través de flowsettings

Personalización del Pipeline de Indexación

  • Consulte los ejemplos de implementación en libs/ktem/ktem/index/file/graph
  • Admite el pipeline de indexación GraphRAG

Archivos de Configuración

  • flowsettings.py: Configuración de la aplicación
  • .env: Configuración del modelo y las credenciales

Escenarios de Aplicación

  1. Gestión del Conocimiento Empresarial: Construcción de un sistema de preguntas y respuestas sobre documentos internos.
  2. Investigación Académica: Preguntas y respuestas inteligentes sobre literatura de investigación.
  3. Análisis de Documentos Legales: Recuperación y análisis rápido de documentos legales.
  4. Soporte de Documentación Técnica: Proporciona consultas inteligentes de documentación técnica para los usuarios.
  5. Base de Conocimiento Personal: Gestión y consulta de colecciones de documentos personales.

Ventajas del Proyecto

  • Código Abierto y Gratuito: Completamente de código abierto, se puede usar y modificar libremente.
  • Funcionalidad Completa: Desde preguntas y respuestas simples hasta razonamiento complejo, la funcionalidad es completa.
  • Fácil de Usar: Interfaz web intuitiva, se puede usar sin conocimientos técnicos.
  • Altamente Personalizable: Admite múltiples opciones de configuración y extensión.
  • Comunidad Activa: Actualizaciones continuas y soporte de la comunidad.

Características Técnicas

  • Desarrollado en Python
  • Utiliza Gradio para construir la interfaz web
  • Admite el despliegue en contenedores Docker
  • Diseño de arquitectura modular
  • Admite aceleración por GPU (modelos locales)

Resumen

Kotaemon es una potente herramienta de UI RAG que permite a los usuarios interactuar con documentos de forma conversacional. No solo proporciona a los usuarios finales una interfaz de preguntas y respuestas sobre documentos fácil de usar, sino que también proporciona a los desarrolladores un marco completo para construir sistemas RAG personalizados. A través de la recuperación híbrida, el soporte multimodal, las referencias avanzadas y otras características, Kotaemon proporciona una solución completa y profesional en el campo de las preguntas y respuestas inteligentes sobre documentos.