Meta 開源的支援 1600+ 種語言的多語言語音識別系統

NOASSERTIONPythonomnilingual-asrfacebookresearch 1.6k Last Updated: November 13, 2025

Omnilingual ASR - Meta 開源多語言語音識別系統

專案概述

Omnilingual ASR 是由 Meta 的基礎人工智慧研究(FAIR)團隊開發的革命性開源語音識別系統。該系統支援超過 1600 種語言的語音識別,其中包括數百種此前從未被任何 ASR 技術覆蓋的語言。此專案的特別之處在於,它不僅支援已訓練的 1600 種語言,還能透過零樣本上下文學習擴展至超過 5400 種語言——幾乎涵蓋所有已知文字系統的口語。

核心特性

1. 前所未有的語言覆蓋範圍

  • 1600+ 種官方支援語言:經過完整訓練的語言支援
  • 5400+ 種潛在支援語言:透過零樣本學習可擴展支援
  • 低資源語言支援:78% 的支援語言字元錯誤率(CER)低於 10%
  • 包含日語支援:語言代碼為 jpn_Jpan

2. 開源授權

該專案採用 Apache 2.0 授權完全開源,而非 Meta 此前使用的限制性 Llama 授權。這意味著研究人員與開發者可立即免費使用,甚至用於商業及企業級專案,毫無限制。

3. 零樣本學習能力

透過零樣本上下文學習功能,使用者可在推理時提供新語言的幾個音訊-文字配對範例,使模型能夠轉錄該語言的額外語句,而無需任何重新訓練。這賦予系統前所未有的可擴展性。

技術架構

模型家族

專案包含多個模型變體:

  1. W2V(Wav2Vec 2.0)編碼器系列

    • 參數規模:3 億、10 億、30 億、70 億
    • 用於提取多語言語音表示
  2. CTC 解碼器系列

    • 基於連接主義時序分類(CTC)框架
    • 參數規模:3 億、10 億、30 億、70 億
  3. LLM 解碼器系列

    • 基於 Transformer 架構
    • 參數規模:3 億、10 億、30 億、70 億
    • 包含零樣本變體(7B_ZS)

核心技術創新

系統透過將 wav2vec 2.0 編碼器擴展至 70 億參數,首次實現了從原始未轉錄語音資料中生成豐富的大規模多語言語義表示。

資料集

Omnilingual ASR Corpus

Meta 與非洲、亞洲等地的研究人員及社區組織合作,創建了 Omnilingual ASR Corpus,這是一個涵蓋 348 種低資源語言、總長達 3350 小時的資料集。

合作組織包括:

  • African Next Voices(比爾及梅琳達·蓋茲基金會支持)
  • Mozilla 基金會的 Common Voice 專案
  • Lanfrica / NaijaVoices

資料集特點:

  • 採用 CC-BY-4.0 授權開放
  • 包含自然、無腳本的語音
  • 文化相關的開放式提示設計

安裝與使用

基本安裝

# 使用 pip
pip install omnilingual-asr

# 使用 uv
uv add omnilingual-asr

注意:音訊支援需安裝 libsndfile 函式庫(Mac: brew install libsndfile

基礎使用範例

from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline

# 初始化管道
pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")

# 準備音訊檔案和語言
audio_files = ["/path/to/eng_audio1.flac", "/path/to/deu_audio2.wav"]
lang = ["eng_Latn", "deu_Latn"]

# 執行轉錄
transcriptions = pipeline.transcribe(audio_files, lang=lang, batch_size=2)

查看支援的語言

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs

# 列印所有支援的語言
print(f"Total supported languages: {len(supported_langs)}")
print(supported_langs)

# 檢查特定語言是否支援
if "eng_Latn" in supported_langs:
    print("English (Latin script) is supported!")

語言格式:{語言代碼}_{文字系統},例如:

  • eng_Latn - 英語(拉丁文字)
  • cmn_Hans - 普通話(簡體中文)
  • jpn_Jpan - 日語(日文文字)

使用資料集進行評估

from datasets import load_dataset
from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline

# 載入特定語言的資料集
omni_dataset = load_dataset("facebook/omnilingual-asr-corpus", "lij_Latn", 
                             split="train", streaming=True)
batch = next(omni_dataset.iter(5))

# 轉換為管道輸入格式
audio_data = [{"waveform": x["array"], "sample_rate": x["sampling_rate"]}
              for x in batch["audio"]]

# 執行推理
pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")
transcriptions = pipeline.transcribe(audio_data, batch_size=2)

效能指標

最大的模型 7B-LLM-ASR 在近 80% 的支援語言上實現了低於 10 的字元錯誤率。其中:

  • 236 種語言需要超過 50 小時的訓練資料
  • 195 種語言僅用不到 10 小時的訓練資料就達到了良好效果

應用前景

該系統對教育、政府及非政府組織具有重要意義:

  • 教育領域:支援母語口述傳統或講座的轉錄與翻譯
  • 政府與 NGO:為邊緣化群體提供可存取的語音介面與文件工具
  • AI 產業:證明全球規模的 AI 系統可以建立在開放、社群驅動的基礎上

目前限制

⚠️ 重要提示:目前僅接受 40 秒以內的音訊檔案進行推理。團隊計畫很快新增對無限長度音訊檔案轉錄的支援。

專案資源

引用格式

若在研究中使用 Omnilingual ASR,請使用以下 BibTeX 格式引用:

@misc{omnilingualasr2025,
  title={{Omnilingual ASR}: Open-Source Multilingual Speech Recognition for 1600+ Languages},
  author={{Omnilingual ASR Team} and Keren, Gil and Kozhevnikov, Artyom and Meng, Yen and Ropers, Christophe and Setzler, Matthew and Wang, Skyler and Adebara, Ife and Auli, Michael and Chan, Kevin and Cheng, Chierh and Chuang, Joe and Droof, Caley and Duppenthaler, Mark and Duquenne, Paul-Ambroise and Erben, Alexander and Gao, Cynthia and Mejia Gonzalez, Gabriel and Lyu, Kehan and Miglani, Sagar and Pratap, Vineel and Sadagopan, Kaushik Ram and Saleem, Safiyyah and Turkatenko, Arina and Ventayol-Boada, Albert and Yong, Zheng-Xin and Chung, Yu-An and Maillard, Jean and Moritz, Rashel and Mourachko, Alexandre and Williamson, Mary and Yates, Shireen},
  year={2025},
  url={https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/},
}

總結

Omnilingual ASR 代表了語音識別技術的重大突破,不僅在技術層面實現了前所未有的語言覆蓋,更重要的是其開放性與可擴展性為全球語言社群帶來了真正的技術民主化。這標誌著 ASR 領域從集中式、雲端封閉服務,轉向社群可擴展基礎設施的典範轉移,使語音識別技術真正成為一個包容性而非限制性的工具。

Star History Chart