Meta's Open-Source-Mehrsprachensystem zur Spracherkennung, das über 1600 Sprachen unterstützt
Omnilingual ASR – Metas Open-Source-System zur mehrsprachigen Spracherkennung
Projektübersicht
Omnilingual ASR ist ein bahnbrechendes Open-Source-Spracherkennungssystem, das vom Fundamental Artificial Intelligence Research (FAIR)-Team von Meta entwickelt wurde. Das System unterstützt die Spracherkennung für über 1600 Sprachen, darunter Hunderte von Sprachen, die zuvor noch nie von irgendeiner ASR-Technologie abgedeckt wurden. Besonders bemerkenswert an diesem Projekt ist, dass es nicht nur die bereits trainierten 1600 Sprachen unterstützt, sondern durch Zero-Shot-Kontextlernen auf über 5400 Sprachen erweitert werden kann – nahezu alle bekannten Schriftsysteme umfassend.
Kernmerkmale
1. Beispiellose Sprachabdeckung
- 1600+ offiziell unterstützte Sprachen: Vollständig trainierte Sprachunterstützung
- 5400+ potenziell unterstützte Sprachen: Erweiterbar durch Zero-Shot-Lernen
- Unterstützung für ressourcenarme Sprachen: Bei 78 % der unterstützten Sprachen liegt die Zeichenfehlerrate (CER) unter 10 %
- Unterstützung für Japanisch: Sprachcode
jpn_Jpan
2. Open-Source-Lizenz
Das Projekt steht vollständig unter der Apache-2.0-Lizenz und somit als Open Source zur Verfügung – im Gegensatz zu den früher von Meta verwendeten restriktiven Llama-Lizenzen. Dies ermöglicht Forschern und Entwicklern eine sofortige, kostenlose Nutzung, sogar für kommerzielle und unternehmenskritische Projekte, ohne jegliche Einschränkungen.
3. Zero-Shot-Lernfähigkeit
Durch Zero-Shot-Kontextlernen können Benutzer während der Inferenz einige Audio-Text-Paarbeispiele einer neuen Sprache bereitstellen, sodass das Modell weitere Äußerungen dieser Sprache transkribieren kann – ohne jegliches erneutes Training. Dies verleiht dem System eine beispiellose Skalierbarkeit.
Technische Architektur
Modellfamilien
Das Projekt umfasst mehrere Modellvarianten:
W2V (Wav2Vec 2.0)-Encoder-Familie
- Parametergrößen: 300 M, 1 B, 3 B, 7 B
- Zur Extraktion mehrsprachiger Sprachrepräsentationen
CTC-Decoder-Familie
- Basierend auf dem Connectionist Temporal Classification (CTC)-Framework
- Parametergrößen: 300 M, 1 B, 3 B, 7 B
LLM-Decoder-Familie
- Basierend auf der Transformer-Architektur
- Parametergrößen: 300 M, 1 B, 3 B, 7 B
- Enthält Zero-Shot-Variante (7B_ZS)
Kerninnovationen
Das System erweitert den wav2vec-2.0-Encoder erstmals auf 7 Milliarden Parameter und ermöglicht so die Generierung reichhaltiger, großskaliger mehrsprachiger semantischer Repräsentationen direkt aus rohen, nicht transkribierten Sprachdaten.
Datensätze
Omnilingual ASR Corpus
Meta hat gemeinsam mit Forschern und Gemeinschaftsorganisationen in Afrika, Asien und anderen Regionen den Omnilingual ASR Corpus erstellt – einen 3350 Stunden umfassenden Datensatz mit 348 ressourcenarmen Sprachen.
Kooperationspartner umfassen:
- African Next Voices (gefördert durch die Gates Foundation)
- Common Voice-Projekt der Mozilla Foundation
- Lanfrica / NaijaVoices
Eigenschaften des Datensatzes:
- Offen lizenziert unter CC-BY-4.0
- Enthält natürliche, ungeübte Sprache
- Kulturell relevante, offene Prompt-Designs
Installation und Nutzung
Grundlegende Installation
# Mit pip
pip install omnilingual-asr
# Mit uv
uv add omnilingual-asr
Hinweis: Für Audiounterstützung wird die libsndfile-Bibliothek benötigt (Mac: brew install libsndfile).
Einfaches Anwendungsbeispiel
from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline
# Pipeline initialisieren
pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")
# Audiodateien und Sprachen vorbereiten
audio_files = ["/path/to/eng_audio1.flac", "/path/to/deu_audio2.wav"]
lang = ["eng_Latn", "deu_Latn"]
# Transkription durchführen
transcriptions = pipeline.transcribe(audio_files, lang=lang, batch_size=2)
Unterstützte Sprachen anzeigen
from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs
# Alle unterstützten Sprachen ausgeben
print(f"Total supported languages: {len(supported_langs)}")
print(supported_langs)
# Prüfen, ob eine bestimmte Sprache unterstützt wird
if "eng_Latn" in supported_langs:
print("English (Latin script) is supported!")
Sprachformat: {Sprachcode}_{Schriftsystem}, z. B.:
eng_Latn– Englisch (lateinisches Alphabet)cmn_Hans– Mandarin (vereinfachte chinesische Schrift)jpn_Jpan– Japanisch (japanisches Schriftsystem)
Datensatz zur Evaluierung verwenden
from datasets import load_dataset
from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline
# Datensatz für eine bestimmte Sprache laden
omni_dataset = load_dataset("facebook/omnilingual-asr-corpus", "lij_Latn",
split="train", streaming=True)
batch = next(omni_dataset.iter(5))
# In Pipeline-Eingabeformat konvertieren
audio_data = [{"waveform": x["array"], "sample_rate": x["sampling_rate"]}
for x in batch["audio"]]
# Inferenz durchführen
pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")
transcriptions = pipeline.transcribe(audio_data, batch_size=2)
Leistungskennzahlen
Das größte Modell, 7B-LLM-ASR, erreicht bei fast 80 % der unterstützten Sprachen eine Zeichenfehlerrate (CER) unter 10. Davon:
- 236 Sprachen benötigten mehr als 50 Stunden Trainingsdaten
- 195 Sprachen erreichten gute Ergebnisse mit weniger als 10 Stunden Trainingsdaten
Anwendungsperspektiven
Dieses System hat große Bedeutung für Bildung, Regierungen und Nichtregierungsorganisationen:
- Bildung: Unterstützung bei der Transkription und Übersetzung mündlicher Überlieferungen oder Vorlesungen in Muttersprachen
- Regierungen und NGOs: Bereitstellung zugänglicher Sprachschnittstellen und Dokumentationswerkzeuge für marginalisierte Gruppen
- KI-Industrie: Beweis, dass globale KI-Systeme auf offenen, gemeinschaftlich getragenen Grundlagen aufgebaut werden können
Aktuelle Einschränkungen
⚠️ Wichtiger Hinweis: Derzeit werden nur Audiodateien mit einer Länge von maximal 40 Sekunden zur Inferenz akzeptiert. Das Team plant, bald Unterstützung für Audiodateien beliebiger Länge hinzuzufügen.
Projektressourcen
- GitHub-Repository: https://github.com/facebookresearch/omnilingual-asr
- Datensatz: https://huggingface.co/datasets/facebook/omnilingual-asr-corpus
- Online-Demo: https://huggingface.co/spaces/facebook/omniasr-transcriptions
- Fachartikel: https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/
Zitierhinweis
Wenn Sie Omnilingual ASR in Ihrer Forschung verwenden, zitieren Sie bitte wie folgt im BibTeX-Format:
@misc{omnilingualasr2025,
title={{Omnilingual ASR}: Open-Source Multilingual Speech Recognition for 1600+ Languages},
author={{Omnilingual ASR Team} and Keren, Gil and Kozhevnikov, Artyom and Meng, Yen and Ropers, Christophe and Setzler, Matthew and Wang, Skyler and Adebara, Ife and Auli, Michael and Chan, Kevin and Cheng, Chierh and Chuang, Joe and Droof, Caley and Duppenthaler, Mark and Duquenne, Paul-Ambroise and Erben, Alexander and Gao, Cynthia and Mejia Gonzalez, Gabriel and Lyu, Kehan and Miglani, Sagar and Pratap, Vineel and Sadagopan, Kaushik Ram and Saleem, Safiyyah and Turkatenko, Arina and Ventayol-Boada, Albert and Yong, Zheng-Xin and Chung, Yu-An and Maillard, Jean and Moritz, Rashel and Mourachko, Alexandre and Williamson, Mary and Yates, Shireen},
year={2025},
url={https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/},
}
Zusammenfassung
Omnilingual ASR stellt einen bedeutenden Durchbruch in der Spracherkennungstechnologie dar. Es bietet nicht nur technologisch gesehen eine beispiellose Sprachabdeckung, sondern fördert durch seine Offenheit und Skalierbarkeit echte technologische Demokratisierung für Sprachgemeinschaften weltweit. Damit markiert es einen Paradigmenwechsel im Bereich der automatischen Spracherkennung – weg von zentralisierten, geschlossenen Cloud-Diensten hin zu gemeinschaftlich erweiterbarer Infrastruktur – und macht Spracherkennung zu einem inklusiven statt restriktiven Werkzeug.