chroma-core/chroma View GitHub Homepage for Latest Official Releases

Base de datos de incrustaciones vectoriales nativa de IA de código abierto, diseñada para soluciones de generación aumentada de recuperación (RAG) para aplicaciones de modelos de lenguaje grandes.

Apache-2.0Rustchromachroma-core 26.1k Last Updated: February 12, 2026

Chroma - Base de Datos Vectorial de Código Abierto Nativa para IA

Resumen del Proyecto

Chroma es una base de datos de código abierto para aplicaciones de IA, diseñada específicamente para almacenar y recuperar incrustaciones vectoriales (embeddings). Es una base de datos de incrustaciones (también conocida como base de datos vectorial) que puede encontrar datos mediante la búsqueda de vecinos más cercanos en lugar de la búsqueda de subcadenas de texto tradicional de las bases de datos.

Dirección de GitHub: https://github.com/chroma-core/chroma

Características Principales

1. Base de Datos Vectorial con Funcionalidad Completa

Chroma integra múltiples funciones, incluyendo incrustación, búsqueda vectorial, almacenamiento de documentos, búsqueda de texto completo, filtrado de metadatos y recuperación multimodal, todo integrado en una sola plataforma.

2. Soporte Multilingüe

Python: Lenguaje de desarrollo principal
JavaScript: Soporte para frontend y Node.js
Rust: Componentes centrales de alto rendimiento

3. Soporte Flexible para Modelos de Incrustación

Por defecto, Chroma utiliza Sentence Transformers para la incrustación, pero también puede utilizar otras incrustaciones como OpenAI embeddings, Cohere (multilingüe), etc.

4. Múltiples Modos de Despliegue

Soporta múltiples modos de despliegue, incluyendo modo en memoria, modo de almacenamiento de archivos y modo servidor.

5. Altamente Escalable

Soporta diferentes backends de almacenamiento, como DuckDB para uso local y ClickHouse para escalar aplicaciones grandes.

Principales Casos de Uso

1. Sistemas de Generación Aumentada por Recuperación (RAG)

En los sistemas RAG, primero se incrustan los documentos y se almacenan en una colección ChromaDB, y luego se ejecutan consultas a través de ChromaDB para encontrar contenido semánticamente relevante.

2. Búsqueda Semántica

En la búsqueda semántica, ChromaDB puede encontrar puntos de datos similares entre sí basándose en incrustaciones vectoriales, lo cual es muy útil para identificar documentos, imágenes u otros tipos de datos comparables analizando su contenido o significado.

3. Búsqueda de Similitud

A través del cálculo de la distancia en el espacio vectorial, se encuentra rápidamente el contenido más similar a la consulta.

Arquitectura Técnica

Backend de Almacenamiento

DuckDB: Despliegue local ligero
ClickHouse: Despliegue distribuido a gran escala
Almacenamiento en Memoria: Desarrollo rápido de prototipos

Procesamiento de Incrustaciones

Generación automática de incrustaciones
Soporte para funciones de incrustación personalizadas
Capacidad de procesamiento por lotes

Gestión de Metadatos

Ricas funciones de filtrado de metadatos
Soporte para consultas estructuradas
Capacidad de búsqueda híbrida

Instalación y Uso

Instalación con Python

pip install chromadb

Ejemplo de Uso Básico

import chromadb


client = chromadb.Client()


collection = client.create_collection("my_collection")

collection.add(
    documents=["This is document 1", "This is document 2"],
    metadatas=[{"source": "doc1"}, {"source": "doc2"}],
    ids=["id1", "id2"]
)

results = collection.query(
    query_texts=["search query"],
    n_results=2
)

Integración con el Ecosistema

Integración con LangChain

Chroma ya está profundamente integrado con LangChain y puede utilizarse como un componente de almacenamiento vectorial.

Integración con OpenAI

Chroma ya está integrado con las funciones de incrustación de OpenAI, soportando el almacenamiento y filtrado de metadatos arbitrarios.

Ventajas del Proyecto

Listo para Usar: Baterías incluidas, todas las funciones están preintegradas
Fácil de Usar: Diseño de API conciso, inicio rápido
Alto Rendimiento: Algoritmos de búsqueda vectorial optimizados
Escalable: Expansión fluida desde prototipos hasta entornos de producción
Código Abierto: Soporte activo de la comunidad y desarrollo continuo

Resumen

Chroma es un componente de infraestructura indispensable en el desarrollo moderno de aplicaciones de IA, especialmente adecuado para escenarios de aplicación que requieren búsqueda semántica, sistemas RAG y coincidencia de similitud vectorial. Su API concisa, sus potentes funciones y su buena integración con el ecosistema la convierten en la solución de base de datos vectorial preferida por los desarrolladores.