Chatterbox는 Resemble AI에서 개발한 최초의 생산 등급 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. MIT 라이선스에 따라 배포되는 이 프로젝트는 획기적인 음성 합성 솔루션으로, 여러 벤치마크 테스트에서 뛰어난 성능을 보이며, 병렬 평가에서 ElevenLabs와 같은 선도적인 폐쇄형 시스템보다 지속적으로 우수한 결과를 보여줍니다.
Chatterbox는 다양한 활용 분야에 적합합니다.
pip install chatterbox-tts
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# 모델 초기화
model = ChatterboxTTS.from_pretrained(device="cuda")
# 음성 생성
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# 오디오 프롬프트를 사용하여 음성 복제
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
exaggeration=0.5
, cfg=0.5
는 대부분의 프롬프트에 적합cfg
를 약 0.3
으로 낮춰 리듬 개선cfg
값(예: ~0.3
) 시도exaggeration
을 약 0.7
이상으로 증가exaggeration
은 음성 속도를 높이므로 cfg
를 낮추면 더 느리고 신중한 리듬으로 보상하는 데 도움확장 또는 더 높은 정확도를 위한 튜닝이 필요한 사용자를 위해 Resemble AI는 다음과 같은 특징을 가진 경쟁력 있는 가격의 TTS 서비스를 제공합니다.
본 모델은 책임감 있게 사용해야 하며 악의적인 목적으로 사용해서는 안 됩니다. 훈련 프롬프트는 인터넷에서 무료로 사용할 수 있는 데이터를 기반으로 합니다.
오픈 소스 프로젝트로서 Chatterbox는 커뮤니티 기여를 환영합니다. 개발자는 GitHub를 통해 프로젝트 개발에 참여하고 문제 보고서 또는 기능 제안을 제출할 수 있습니다.