chroma-core/chroma View GitHub Homepage for Latest Official Releases

Open-Source KI-native Vektoreinbettungsdatenbank, spezialisiert auf Retrieval-Augmented Generation (RAG) Lösungen für Anwendungen mit großen Sprachmodellen

Apache-2.0Rustchromachroma-core 26.1k Last Updated: February 12, 2026

Chroma - Open-Source AI-Native Vektordatenbank

Projektübersicht

Chroma ist eine Open-Source-Datenbank für KI-Anwendungen, die speziell für die Speicherung und den Abruf von Vektoreinbettungen (Embeddings) entwickelt wurde. Es handelt sich um eine Einbettungsdatenbank (auch Vektordatenbank genannt), die Daten durch Nearest-Neighbor-Suche anstelle der herkömmlichen Substring-Suche von Datenbanken findet.

GitHub-Adresse: https://github.com/chroma-core/chroma

Kernfunktionen

1. Vollwertige Vektordatenbank

Chroma integriert verschiedene Funktionen, darunter Einbettung, Vektorsuche, Dokumentenspeicherung, Volltextsuche, Metadatenfilterung und multimodale Suche, alles in einer Plattform.

2. Mehrsprachige Unterstützung

Python: Hauptentwicklungssprache
JavaScript: Frontend- und Node.js-Unterstützung
Rust: Hochleistungsfähige Kernkomponenten

3. Flexible Unterstützung von Einbettungsmodellen

Standardmäßig verwendet Chroma Sentence Transformers für die Einbettung, unterstützt aber auch andere Einbettungsmodelle wie OpenAI Embeddings, Cohere (mehrsprachig) usw.

4. Verschiedene Bereitstellungsmodi

Unterstützt verschiedene Bereitstellungsmodi, darunter Speichermodus, Dateispeichermodus und Servermodus.

5. Hochgradig skalierbar

Unterstützt verschiedene Speicher-Backends, wie DuckDB für die lokale Verwendung und ClickHouse für die Skalierung großer Anwendungen.

Hauptanwendungsbereiche

1. Retrieval Augmented Generation (RAG) Systeme

In RAG-Systemen werden Dokumente zunächst eingebettet und in einer ChromaDB-Sammlung gespeichert. Anschließend werden Abfragen über ChromaDB ausgeführt, um semantisch relevante Inhalte zu finden.

2. Semantische Suche

In der semantischen Suche kann ChromaDB Datenpunkte finden, die sich aufgrund von Vektoreinbettungen ähneln. Dies ist sehr nützlich, um vergleichbare Dokumente, Bilder oder andere Datentypen durch Analyse von Inhalt oder Bedeutung zu identifizieren.

3. Ähnlichkeitssuche

Schnelles Auffinden von Inhalten, die der Abfrage am ähnlichsten sind, durch Distanzberechnungen im Vektorraum.

Technische Architektur

Speicher-Backend

DuckDB: Lokale, leichtgewichtige Bereitstellung
ClickHouse: Große, verteilte Bereitstellung
Speicherspeicherung: Schnelle Prototypenentwicklung

Einbettungsverarbeitung

Automatische Einbettungserzeugung
Unterstützung für benutzerdefinierte Einbettungsfunktionen
Batch-Verarbeitungsfähigkeit

Metadatenverwaltung

Umfangreiche Metadatenfilterfunktionen
Unterstützung für strukturierte Abfragen
Hybride Suchfunktionen

Installation und Verwendung

Python-Installation

pip install chromadb

Grundlegendes Nutzungsbeispiel

import chromadb


client = chromadb.Client()


collection = client.create_collection("my_collection")

collection.add(
    documents=["This is document 1", "This is document 2"],
    metadatas=[{"source": "doc1"}, {"source": "doc2"}],
    ids=["id1", "id2"]
)

results = collection.query(
    query_texts=["search query"],
    n_results=2
)

Integration mit dem Ökosystem

LangChain-Integration

Chroma ist tief in LangChain integriert und kann als Vektorspeicherkomponente verwendet werden.

OpenAI-Integration

Chroma ist in die Einbettungsfunktionen von OpenAI integriert und unterstützt die Speicherung und Filterung beliebiger Metadaten.

Projektvorteile

Out-of-the-Box: Alles inklusive, alle Funktionen sind vorintegriert
Einfache Bedienung: Schlankes API-Design, schneller Einstieg
Hohe Leistung: Optimierte Vektorsuchalgorithmen
Skalierbar: Reibungslose Skalierung vom Prototyp zur Produktionsumgebung
Open Source: Aktive Community-Unterstützung und kontinuierliche Entwicklung

Zusammenfassung

Chroma ist eine unverzichtbare Infrastrukturkomponente in der modernen KI-Anwendungsentwicklung, die sich besonders für Anwendungsfälle eignet, die semantische Suche, RAG-Systeme und Vektorähnlichkeitsabgleich erfordern. Seine schlanke API, seine leistungsstarken Funktionen und seine gute Ökosystemintegration machen es zu einer bevorzugten Vektordatenbanklösung für Entwickler.