Meta's Open-Source-Mehrsprachensystem zur Spracherkennung, das über 1600 Sprachen unterstützt

NOASSERTIONPythonomnilingual-asrfacebookresearch 1.6k Last Updated: November 13, 2025

Omnilingual ASR – Metas Open-Source-System zur mehrsprachigen Spracherkennung

Projektübersicht

Omnilingual ASR ist ein bahnbrechendes Open-Source-Spracherkennungssystem, das vom Fundamental Artificial Intelligence Research (FAIR)-Team von Meta entwickelt wurde. Das System unterstützt die Spracherkennung für über 1600 Sprachen, darunter Hunderte von Sprachen, die zuvor noch nie von irgendeiner ASR-Technologie abgedeckt wurden. Besonders bemerkenswert an diesem Projekt ist, dass es nicht nur die bereits trainierten 1600 Sprachen unterstützt, sondern durch Zero-Shot-Kontextlernen auf über 5400 Sprachen erweitert werden kann – nahezu alle bekannten Schriftsysteme umfassend.

Kernmerkmale

1. Beispiellose Sprachabdeckung

  • 1600+ offiziell unterstützte Sprachen: Vollständig trainierte Sprachunterstützung
  • 5400+ potenziell unterstützte Sprachen: Erweiterbar durch Zero-Shot-Lernen
  • Unterstützung für ressourcenarme Sprachen: Bei 78 % der unterstützten Sprachen liegt die Zeichenfehlerrate (CER) unter 10 %
  • Unterstützung für Japanisch: Sprachcode jpn_Jpan

2. Open-Source-Lizenz

Das Projekt steht vollständig unter der Apache-2.0-Lizenz und somit als Open Source zur Verfügung – im Gegensatz zu den früher von Meta verwendeten restriktiven Llama-Lizenzen. Dies ermöglicht Forschern und Entwicklern eine sofortige, kostenlose Nutzung, sogar für kommerzielle und unternehmenskritische Projekte, ohne jegliche Einschränkungen.

3. Zero-Shot-Lernfähigkeit

Durch Zero-Shot-Kontextlernen können Benutzer während der Inferenz einige Audio-Text-Paarbeispiele einer neuen Sprache bereitstellen, sodass das Modell weitere Äußerungen dieser Sprache transkribieren kann – ohne jegliches erneutes Training. Dies verleiht dem System eine beispiellose Skalierbarkeit.

Technische Architektur

Modellfamilien

Das Projekt umfasst mehrere Modellvarianten:

  1. W2V (Wav2Vec 2.0)-Encoder-Familie

    • Parametergrößen: 300 M, 1 B, 3 B, 7 B
    • Zur Extraktion mehrsprachiger Sprachrepräsentationen
  2. CTC-Decoder-Familie

    • Basierend auf dem Connectionist Temporal Classification (CTC)-Framework
    • Parametergrößen: 300 M, 1 B, 3 B, 7 B
  3. LLM-Decoder-Familie

    • Basierend auf der Transformer-Architektur
    • Parametergrößen: 300 M, 1 B, 3 B, 7 B
    • Enthält Zero-Shot-Variante (7B_ZS)

Kerninnovationen

Das System erweitert den wav2vec-2.0-Encoder erstmals auf 7 Milliarden Parameter und ermöglicht so die Generierung reichhaltiger, großskaliger mehrsprachiger semantischer Repräsentationen direkt aus rohen, nicht transkribierten Sprachdaten.

Datensätze

Omnilingual ASR Corpus

Meta hat gemeinsam mit Forschern und Gemeinschaftsorganisationen in Afrika, Asien und anderen Regionen den Omnilingual ASR Corpus erstellt – einen 3350 Stunden umfassenden Datensatz mit 348 ressourcenarmen Sprachen.

Kooperationspartner umfassen:

  • African Next Voices (gefördert durch die Gates Foundation)
  • Common Voice-Projekt der Mozilla Foundation
  • Lanfrica / NaijaVoices

Eigenschaften des Datensatzes:

  • Offen lizenziert unter CC-BY-4.0
  • Enthält natürliche, ungeübte Sprache
  • Kulturell relevante, offene Prompt-Designs

Installation und Nutzung

Grundlegende Installation

# Mit pip
pip install omnilingual-asr

# Mit uv
uv add omnilingual-asr

Hinweis: Für Audiounterstützung wird die libsndfile-Bibliothek benötigt (Mac: brew install libsndfile).

Einfaches Anwendungsbeispiel

from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline

# Pipeline initialisieren
pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")

# Audiodateien und Sprachen vorbereiten
audio_files = ["/path/to/eng_audio1.flac", "/path/to/deu_audio2.wav"]
lang = ["eng_Latn", "deu_Latn"]

# Transkription durchführen
transcriptions = pipeline.transcribe(audio_files, lang=lang, batch_size=2)

Unterstützte Sprachen anzeigen

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs

# Alle unterstützten Sprachen ausgeben
print(f"Total supported languages: {len(supported_langs)}")
print(supported_langs)

# Prüfen, ob eine bestimmte Sprache unterstützt wird
if "eng_Latn" in supported_langs:
    print("English (Latin script) is supported!")

Sprachformat: {Sprachcode}_{Schriftsystem}, z. B.:

  • eng_Latn – Englisch (lateinisches Alphabet)
  • cmn_Hans – Mandarin (vereinfachte chinesische Schrift)
  • jpn_Jpan – Japanisch (japanisches Schriftsystem)

Datensatz zur Evaluierung verwenden

from datasets import load_dataset
from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline

# Datensatz für eine bestimmte Sprache laden
omni_dataset = load_dataset("facebook/omnilingual-asr-corpus", "lij_Latn", 
                             split="train", streaming=True)
batch = next(omni_dataset.iter(5))

# In Pipeline-Eingabeformat konvertieren
audio_data = [{"waveform": x["array"], "sample_rate": x["sampling_rate"]}
              for x in batch["audio"]]

# Inferenz durchführen
pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")
transcriptions = pipeline.transcribe(audio_data, batch_size=2)

Leistungskennzahlen

Das größte Modell, 7B-LLM-ASR, erreicht bei fast 80 % der unterstützten Sprachen eine Zeichenfehlerrate (CER) unter 10. Davon:

  • 236 Sprachen benötigten mehr als 50 Stunden Trainingsdaten
  • 195 Sprachen erreichten gute Ergebnisse mit weniger als 10 Stunden Trainingsdaten

Anwendungsperspektiven

Dieses System hat große Bedeutung für Bildung, Regierungen und Nichtregierungsorganisationen:

  • Bildung: Unterstützung bei der Transkription und Übersetzung mündlicher Überlieferungen oder Vorlesungen in Muttersprachen
  • Regierungen und NGOs: Bereitstellung zugänglicher Sprachschnittstellen und Dokumentationswerkzeuge für marginalisierte Gruppen
  • KI-Industrie: Beweis, dass globale KI-Systeme auf offenen, gemeinschaftlich getragenen Grundlagen aufgebaut werden können

Aktuelle Einschränkungen

⚠️ Wichtiger Hinweis: Derzeit werden nur Audiodateien mit einer Länge von maximal 40 Sekunden zur Inferenz akzeptiert. Das Team plant, bald Unterstützung für Audiodateien beliebiger Länge hinzuzufügen.

Projektressourcen

Zitierhinweis

Wenn Sie Omnilingual ASR in Ihrer Forschung verwenden, zitieren Sie bitte wie folgt im BibTeX-Format:

@misc{omnilingualasr2025,
  title={{Omnilingual ASR}: Open-Source Multilingual Speech Recognition for 1600+ Languages},
  author={{Omnilingual ASR Team} and Keren, Gil and Kozhevnikov, Artyom and Meng, Yen and Ropers, Christophe and Setzler, Matthew and Wang, Skyler and Adebara, Ife and Auli, Michael and Chan, Kevin and Cheng, Chierh and Chuang, Joe and Droof, Caley and Duppenthaler, Mark and Duquenne, Paul-Ambroise and Erben, Alexander and Gao, Cynthia and Mejia Gonzalez, Gabriel and Lyu, Kehan and Miglani, Sagar and Pratap, Vineel and Sadagopan, Kaushik Ram and Saleem, Safiyyah and Turkatenko, Arina and Ventayol-Boada, Albert and Yong, Zheng-Xin and Chung, Yu-An and Maillard, Jean and Moritz, Rashel and Mourachko, Alexandre and Williamson, Mary and Yates, Shireen},
  year={2025},
  url={https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/},
}

Zusammenfassung

Omnilingual ASR stellt einen bedeutenden Durchbruch in der Spracherkennungstechnologie dar. Es bietet nicht nur technologisch gesehen eine beispiellose Sprachabdeckung, sondern fördert durch seine Offenheit und Skalierbarkeit echte technologische Demokratisierung für Sprachgemeinschaften weltweit. Damit markiert es einen Paradigmenwechsel im Bereich der automatischen Spracherkennung – weg von zentralisierten, geschlossenen Cloud-Diensten hin zu gemeinschaftlich erweiterbarer Infrastruktur – und macht Spracherkennung zu einem inklusiven statt restriktiven Werkzeug.

Star History Chart