Meta가 공개한 1600여 개 이상의 언어를 지원하는 다국어 음성 인식 시스템

NOASSERTIONPythonomnilingual-asrfacebookresearch 1.6k Last Updated: November 13, 2025

Omnilingual ASR - 메타의 오픈소스 다국어 음성 인식 시스템

프로젝트 개요

Omnilingual ASR은 메타(Meta)의 기초 인공지능 연구(FAIR) 팀이 개발한 혁신적인 오픈소스 음성 인식 시스템입니다. 이 시스템은 1600개 이상의 언어를 지원하며, 그중 수백 개는 기존 어떤 ASR 기술로도 다뤄지지 않은 언어들입니다. 이 프로젝트의 특별한 점은 이미 학습된 1600개 이상의 언어를 지원할 뿐만 아니라 제로샷(zero-shot) 문맥 학습을 통해 5400개 이상의 언어로 확장 가능하다는 점입니다. 이는 거의 모든 알려진 문자 체계를 사용하는 구어를 포함합니다.

핵심 기능

1. 전례 없는 언어 커버리지

  • 공식 지원 언어 1600개 이상: 완전히 학습된 언어 지원
  • 잠재적 지원 언어 5400개 이상: 제로샷 학습을 통한 확장 가능
  • 저자원 언어 지원: 지원 언어 중 78%가 문자 오류율(CER) 10% 미만
  • 일본어 지원 포함: 언어 코드는 jpn_Jpan

2. 오픈소스 라이선스

이 프로젝트는 메타가 이전에 사용했던 제한적인 Llama 라이선스가 아닌 Apache 2.0 라이선스로 완전히 오픈소스화되었습니다. 따라서 연구자와 개발자들은 즉시 무료로 사용할 수 있으며, 상용 및 엔터프라이즈 프로젝트에도 아무런 제약 없이 활용할 수 있습니다.

3. 제로샷 학습 능력

제로샷 문맥 학습 기능을 통해 사용자는 추론 시 새 언어의 몇 가지 오디오-텍스트 쌍 예시만 제공하면 모델이 추가적인 문장을 해당 언어로 전사할 수 있습니다. 별도의 재학습 없이도 가능하므로 시스템의 확장성이 전례 없이 높습니다.

기술 아키텍처

모델 패밀리

이 프로젝트는 여러 가지 모델 변형을 포함합니다:

  1. W2V(Wav2Vec 2.0) 인코더 시리즈

    • 파라미터 규모: 3억, 10억, 30억, 70억
    • 다국어 음성 표현 추출용
  2. CTC 디코더 시리즈

    • 연결주의 시퀀스 분류(Connectionist Temporal Classification, CTC) 프레임워크 기반
    • 파라미터 규모: 3억, 10억, 30억, 70억
  3. LLM 디코더 시리즈

    • 트랜스포머(Transformer) 아키텍처 기반
    • 파라미터 규모: 3억, 10억, 30억, 70억
    • 제로샷 변형 포함(7B_ZS)

핵심 기술 혁신

이 시스템은 wav2vec 2.0 인코더를 70억 파라미터까지 확장함으로써, 처음으로 원시 비전사(raw untranscribed) 음성 데이터로부터 풍부하고 대규모의 다국어 의미 표현을 생성할 수 있게 되었습니다.

데이터셋

Omnilingual ASR Corpus

메타는 아프리카, 아시아 등지의 연구자 및 지역 공동체와 협력하여 Omnilingual ASR Corpus를 구축했습니다. 이는 348개 저자원 언어를 포함하는 총 3350시간 분량의 데이터셋입니다.

협력 기관:

  • African Next Voices(빌&멀린다 게이츠 재단 지원)
  • Mozilla 재단의 Common Voice 프로젝트
  • Lanfrica / NaijaVoices

데이터셋 특징:

  • CC-BY-4.0 라이선스로 공개
  • 자연스럽고 각본 없는 음성 포함
  • 문화적으로 관련된 오픈형 프롬프트 설계

설치 및 사용법

기본 설치

# pip 사용
pip install omnilingual-asr

# uv 사용
uv add omnilingual-asr

참고: 오디오 지원을 위해 libsndfile 라이브러리 필요(Mac: brew install libsndfile)

기본 사용 예시

from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline

# 파이프라인 초기화
pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")

# 오디오 파일 및 언어 준비
audio_files = ["/path/to/eng_audio1.flac", "/path/to/deu_audio2.wav"]
lang = ["eng_Latn", "deu_Latn"]

# 전사 실행
transcriptions = pipeline.transcribe(audio_files, lang=lang, batch_size=2)

지원 언어 확인

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs

# 지원 언어 전체 출력
print(f"Total supported languages: {len(supported_langs)}")
print(supported_langs)

# 특정 언어 지원 여부 확인
if "eng_Latn" in supported_langs:
    print("English (Latin script) is supported!")

언어 형식: {언어코드}_{문자체계}, 예:

  • eng_Latn – 영어(라틴 문자)
  • cmn_Hans – 중국어 보통화(간체 한자)
  • jpn_Jpan – 일본어(일본어 문자)

데이터셋을 활용한 평가

from datasets import load_dataset
from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline

# 특정 언어 데이터셋 로드
omni_dataset = load_dataset("facebook/omnilingual-asr-corpus", "lij_Latn", 
                             split="train", streaming=True)
batch = next(omni_dataset.iter(5))

# 파이프라인 입력 형식으로 변환
audio_data = [{"waveform": x["array"], "sample_rate": x["sampling_rate"]}
              for x in batch["audio"]]

# 추론 실행
pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")
transcriptions = pipeline.transcribe(audio_data, batch_size=2)

성능 지표

최대 규모의 7B-LLM-ASR 모델은 지원 언어 중 약 80%에서 문자 오류율(CER)이 10 미만을 달성했습니다. 이 중:

  • 236개 언어는 50시간 이상의 학습 데이터 필요
  • 195개 언어는 10시간 미만의 학습 데이터로도 우수한 성능 달성

활용 전망

이 시스템은 교육, 정부 및 비정부기구(NGO) 분야에서 중요한 의미를 가집니다:

  • 교육 분야: 모국어 구술 전통이나 강의 내용의 전사 및 번역 지원
  • 정부 및 NGO: 소외 집단을 위한 접근 가능한 음성 인터페이스 및 문서 도구 제공
  • AI 산업: 글로벌 규모의 AI 시스템이 오픈되고 커뮤니티 주도적으로 구축될 수 있음을 입증

현재 제한 사항

⚠️ 중요: 현재 추론 시 최대 40초 길이의 오디오 파일만 허용됩니다. 무제한 길이 오디오 파일 전사 기능은 곧 추가될 예정입니다.

프로젝트 자료

인용 형식

연구에 Omnilingual ASR을 사용할 경우 다음 BibTeX 형식으로 인용해 주세요:

@misc{omnilingualasr2025,
  title={{Omnilingual ASR}: Open-Source Multilingual Speech Recognition for 1600+ Languages},
  author={{Omnilingual ASR Team} and Keren, Gil and Kozhevnikov, Artyom and Meng, Yen and Ropers, Christophe and Setzler, Matthew and Wang, Skyler and Adebara, Ife and Auli, Michael and Chan, Kevin and Cheng, Chierh and Chuang, Joe and Droof, Caley and Duppenthaler, Mark and Duquenne, Paul-Ambroise and Erben, Alexander and Gao, Cynthia and Mejia Gonzalez, Gabriel and Lyu, Kehan and Miglani, Sagar and Pratap, Vineel and Sadagopan, Kaushik Ram and Saleem, Safiyyah and Turkatenko, Arina and Ventayol-Boada, Albert and Yong, Zheng-Xin and Chung, Yu-An and Maillard, Jean and Moritz, Rashel and Mourachko, Alexandre and Williamson, Mary and Yates, Shireen},
  year={2025},
  url={https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/},
}

요약

Omnilingual ASR은 음성 인식 기술의 중대한 돌파구를 마련했습니다. 단순히 기술적으로 전례 없는 언어 커버리지를 달성했을 뿐만 아니라, 그 개방성과 확장성을 통해 전 세계 언어 공동체에 진정한 기술 민주화를 가져왔습니다. 이는 ASR 분야가 중앙 집중적이고 폐쇄적인 클라우드 서비스에서 커뮤니티 기반의 확장 가능한 인프라로 전환되고 있음을 보여주는 상징적 사례이며, 음성 인식 기술이 제한이 아닌 포용의 도구로 자리잡게 되었음을 의미합니다.

Star History Chart