Metaがオープンソース化した、1600以上の言語をサポートする多言語音声認識システム
Omnilingual ASR - Metaがオープンソース化した多言語音声認識システム
プロジェクト概要
Omnilingual ASRは、Metaの基礎人工知能研究(FAIR)チームが開発した画期的なオープンソース音声認識システムです。このシステムは1600以上の言語をサポートしており、その中にはこれまでどのASR技術にも対応されていなかった数百の言語も含まれています。本プロジェクトの特筆すべき点は、すでに訓練済みの1600言語に加え、ゼロショットコンテキスト学習により5400以上の言語へと拡張可能であることです。これはほぼすべての既知の文字体系に基づく口語をカバーする規模です。
主な特徴
1. 前例のない言語カバレッジ
- 1600以上の公式対応言語:完全に訓練された言語サポート
- 5400以上の潜在的対応言語:ゼロショット学習による拡張サポート
- 低リソース言語への対応:対応言語の78%で文字誤り率(CER)が10%未満
- 日本語対応あり:言語コードは
jpn_Jpan
2. オープンソースライセンス
本プロジェクトはApache 2.0ライセンスの下で完全にオープンソース化されており、Metaが以前使用していた制限付きのLlamaライセンスとは異なります。これにより、研究者や開発者は直ちに無料で利用でき、商用およびエンタープライズプロジェクトでも一切の制限なく使用可能です。
3. ゼロショット学習能力
ゼロショットコンテキスト学習機能により、ユーザーは推論時に新しい言語の音声-テキストペアのサンプルを数件提供するだけで、モデルはその言語の追加文を再訓練なしに書き起こすことができます。これにより、システムは前例のない拡張性を実現しています。
技術アーキテクチャ
モデルファミリー
プロジェクトには複数のモデルバリエーションが含まれています:
W2V(Wav2Vec 2.0)エンコーダーシリーズ
- パラメータ数:3億、10億、30億、70億
- 多言語音声表現の抽出に使用
CTCデコーダーシリーズ
- 接続主義時系列分類(CTC)フレームワークに基づく
- パラメータ数:3億、10億、30億、70億
LLMデコーダーシリーズ
- Transformerアーキテクチャに基づく
- パラメータ数:3億、10億、30億、70億
- ゼロショットバリエーション(7B_ZS)を含む
中核となる技術革新
本システムはwav2vec 2.0エンコーダーを70億パラメータまで拡張することで、転写されていない生の音声データから豊かで大規模な多言語セマンティック表現を生成することに世界で初めて成功しました。
データセット
Omnilingual ASR Corpus
Metaはアフリカやアジアなどの地域の研究者およびコミュニティ団体と協力して、Omnilingual ASR Corpusを作成しました。これは348の低リソース言語をカバーし、総計3350時間の音声データを含むデータセットです。
協力団体:
- African Next Voices(ビル&メリンダ・ゲイツ財団支援)
- Mozilla財団のCommon Voiceプロジェクト
- Lanfrica / NaijaVoices
データセットの特徴:
- CC-BY-4.0ライセンスで公開
- 自然で台本のない音声を収録
- 文化的に適切なオープンプロンプト設計
インストールと使用方法
基本インストール
# pipを使用
pip install omnilingual-asr
# uvを使用
uv add omnilingual-asr
注意:音声サポートにはlibsndfileライブラリが必要です(Mac: brew install libsndfile)
基本的な使用例
from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline
# パイプラインの初期化
pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")
# 音声ファイルと言語の準備
audio_files = ["/path/to/eng_audio1.flac", "/path/to/deu_audio2.wav"]
lang = ["eng_Latn", "deu_Latn"]
# 転写の実行
transcriptions = pipeline.transcribe(audio_files, lang=lang, batch_size=2)
対応言語の確認
from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs
# 対応言語の全リスト表示
print(f"Total supported languages: {len(supported_langs)}")
print(supported_langs)
# 特定言語の対応確認
if "eng_Latn" in supported_langs:
print("English (Latin script) is supported!")
言語フォーマット:{言語コード}_{文字体系}、例:
eng_Latn- 英語(ラテン文字)cmn_Hans- 中国語普通話(簡体字)jpn_Jpan- 日本語(日本語文字)
データセットを使った評価
from datasets import load_dataset
from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline
# 特定言語のデータセットを読み込み
omni_dataset = load_dataset("facebook/omnilingual-asr-corpus", "lij_Latn",
split="train", streaming=True)
batch = next(omni_dataset.iter(5))
# パイプライン入力形式に変換
audio_data = [{"waveform": x["array"], "sample_rate": x["sampling_rate"]}
for x in batch["audio"]]
# 推論の実行
pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")
transcriptions = pipeline.transcribe(audio_data, batch_size=2)
パフォーマンス指標
最大規模のモデル7B-LLM-ASRは、対応言語の約80%において文字誤り率(CER)が10未満を達成しています。具体的には:
- 236言語は50時間以上の訓練データを必要としています
- 195言語は10時間未満の訓練データで良好な結果を達成しています
応用可能性
本システムは教育機関、政府機関、NGOにとって極めて重要です:
- 教育分野:母語による口承伝統や講義の転写・翻訳を支援
- 政府・NGO:周縁化されたコミュニティ向けにアクセシブルな音声インターフェースおよび文書作成ツールを提供
- AI業界:グローバル規模のAIシステムがオープンかつコミュニティ主導で構築可能であることを実証
現在の制限事項
⚠️ 重要:現在は推論時に40秒以内の音声ファイルのみを受け付けています。チームは近日中に無制限の長さの音声ファイルに対応する予定です。
プロジェクトリソース
- GitHubリポジトリ: https://github.com/facebookresearch/omnilingual-asr
- データセット: https://huggingface.co/datasets/facebook/omnilingual-asr-corpus
- オンラインデモ: https://huggingface.co/spaces/facebook/omniasr-transcriptions
- 技術論文: https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/
引用形式
研究でOmnilingual ASRを使用する場合は、以下のBibTeX形式で引用してください:
@misc{omnilingualasr2025,
title={{Omnilingual ASR}: Open-Source Multilingual Speech Recognition for 1600+ Languages},
author={{Omnilingual ASR Team} and Keren, Gil and Kozhevnikov, Artyom and Meng, Yen and Ropers, Christophe and Setzler, Matthew and Wang, Skyler and Adebara, Ife and Auli, Michael and Chan, Kevin and Cheng, Chierh and Chuang, Joe and Droof, Caley and Duppenthaler, Mark and Duquenne, Paul-Ambroise and Erben, Alexander and Gao, Cynthia and Mejia Gonzalez, Gabriel and Lyu, Kehan and Miglani, Sagar and Pratap, Vineel and Sadagopan, Kaushik Ram and Saleem, Safiyyah and Turkatenko, Arina and Ventayol-Boada, Albert and Yong, Zheng-Xin and Chung, Yu-An and Maillard, Jean and Moritz, Rashel and Mourachko, Alexandre and Williamson, Mary and Yates, Shireen},
year={2025},
url={https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/},
}
まとめ
Omnilingual ASRは音声認識技術における重大なブレークスルーを示しており、技術面での前例のない言語カバレッジだけでなく、そのオープン性と拡張性によって世界中の言語コミュニティに真の技術的民主化をもたらします。これはASR分野が集中型・クラウドベースの閉鎖的サービスから、コミュニティが拡張可能なインフラストラクチャへと移行する転換点であり、音声認識技術を制限的ではなく包括的なツールへと進化させます。