WhisperSpeech/WhisperSpeech

Whisper를 리버스 엔지니어링하여 구축된 오픈 소스 텍스트 음성 변환 시스템

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08

https://github.com/WhisperSpeech/WhisperSpeech

WhisperSpeech 프로젝트 상세 소개

개요

WhisperSpeech는 OpenAI Whisper를 역공학하여 구축된 오픈 소스 텍스트 음성 변환(TTS) 시스템입니다. 이 프로젝트의 비전은 음성 합성 분야의 "Stable Diffusion"이 되는 것입니다. 즉, 강력하면서도 쉽게 사용자 정의할 수 있는 시스템을 목표로 합니다.

프로젝트는 원래 spear-tts-pytorch로 알려졌지만, 현재는 성숙한 다국어 음성 합성 솔루션으로 발전했습니다. WhisperSpeech는 합법적인 라이선스를 받은 음성 녹음 데이터를 사용하는 데 중점을 두고 있으며, 모든 코드는 오픈 소스이므로 상업적 애플리케이션에 안전하게 사용할 수 있습니다.

핵심 기능 및 특징

🎯 주요 특징

오픈 소스 및 상업적 안전: Apache-2.0/MIT 라이선스를 채택하여 모든 코드가 오픈 소스이며, 합법적인 라이선스를 받은 음성 데이터만 사용합니다.
다국어 지원: 현재 영어와 폴란드어를 지원하며, 더 많은 언어로 확장할 계획입니다.
음성 복제: 참조 오디오 파일을 기반으로 한 음성 복제 기능을 지원합니다.
다국어 혼합: 단일 문장에서 여러 언어를 혼합할 수 있습니다.
고성능 최적화: 소비자용 4090 그래픽 카드에서 12배 이상의 실시간 속도로 추론 성능을 제공합니다.

🔧 기술 아키텍처

WhisperSpeech의 아키텍처는 Google의 AudioLM 및 SPEAR TTS, 그리고 Meta의 MusicGen과 유사하며, 강력한 오픈 소스 모델을 기반으로 구축되었습니다.

Whisper (OpenAI): 의미론적 토큰을 생성하고 전사를 수행하는 데 사용됩니다.
EnCodec (Meta): 음향 모델링에 사용됩니다.
Vocos (Charactr Inc): 고품질 보코더로 사용됩니다.

📊 모델 구성 요소

의미론적 토큰 생성: OpenAI Whisper 인코더 블록을 활용하여 임베딩을 생성한 다음, 양자화하여 의미론적 토큰을 얻습니다.
음향 모델링: EnCodec을 사용하여 오디오 파형을 모델링하여 1.5kbps에서 합리적인 품질을 제공합니다.
고품질 보코더: Vocos를 통해 EnCodec 토큰을 고품질 오디오로 변환합니다.

🌍 데이터 세트 및 훈련

영어 데이터: LibreLight 데이터 세트를 기반으로 훈련되었습니다.
다국어 확장: 영어 + 폴란드어 + 프랑스어 데이터 세트에서 소형 모델을 성공적으로 훈련했습니다.
음성 복제: 의미론적 토큰이 일부 언어에서만 훈련된 경우에도 언어 간 음성 복제를 지원합니다.

사용 방식

빠른 시작

Google Colab: 즉시 사용 가능한 Colab 노트북 제공, 30초 이내에 설치 완료
로컬 실행: 로컬 노트북 환경 지원
HuggingFace: 사전 훈련된 모델 및 변환된 데이터 세트는 모두 HuggingFace에서 얻을 수 있습니다.

모델 다운로드

기술 원리

WhisperSpeech는 혁신적인 "역공학" 방법을 채택했습니다.

Whisper의 음성 인식 능력을 사용하여 음성 합성 시스템을 역방향으로 구축합니다.
의미론적 토큰을 통해 텍스트와 음성을 연결합니다.
기존의 강력한 오픈 소스 모델을 활용하여 불필요한 중복 개발을 피합니다.
합법적인 데이터와 상업적 안전에 집중합니다.

요약

WhisperSpeech는 오픈 소스 음성 합성 기술의 중요한 돌파구를 나타냅니다. 기술적으로 고품질의 다국어 음성 합성을 구현했을 뿐만 아니라, 완전한 오픈 소스, 상업적으로 안전한 생태계를 구축했습니다. Whisper의 혁신적인 역공학 방법을 통해 이 프로젝트는 음성 합성 분야에 강력하고 유연한 솔루션을 제공합니다.