Home
Login

최초의 프로덕션 레벨 오픈 소스 텍스트 음성 변환 모델로, 감정 과장 제어 및 제로샷 음성 합성을 지원합니다.

MITPython 8.7kresemble-aichatterbox Last Updated: 2025-06-13

Chatterbox - 오픈 소스 텍스트 음성 변환 모델

프로젝트 개요

Chatterbox는 Resemble AI에서 개발한 최초의 생산 등급 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. MIT 라이선스에 따라 배포되는 이 프로젝트는 획기적인 음성 합성 솔루션으로, 여러 벤치마크 테스트에서 뛰어난 성능을 보이며, 병렬 평가에서 ElevenLabs와 같은 선도적인 폐쇄형 시스템보다 지속적으로 우수한 결과를 보여줍니다.

핵심 기능

🎯 기술적 장점

  • 최첨단 제로샷 TTS 기술: 훈련 없이 고품질 음성 생성
  • 5억 파라미터 Llama 백본 네트워크: 강력한 모델 아키텍처로 생성 품질 보장
  • 독특한 감정 과장/강도 제어: 업계 최초로 감정 제어를 지원하는 오픈 소스 TTS 모델
  • 초안정적인 정렬 인식 추론: 생성되는 음성의 안정성과 일관성 보장
  • 대규모 훈련 데이터: 50만 시간의 깨끗한 데이터를 기반으로 훈련
  • 내장 워터마크 기능: 생성되는 모든 오디오에는 Perth 인지 임계값 워터마크 포함

🚀 성능

  • ElevenLabs보다 우수: Podonos 플랫폼의 비교 테스트에서 더 나은 성능
  • 낮은 지연 시간: 상업용 버전은 200ms 미만의 초저지연 지원
  • 고품질 합성: 대규모 깨끗한 데이터를 기반으로 훈련하여 출력 품질 보장

활용 분야

Chatterbox는 다양한 활용 분야에 적합합니다.

  • 콘텐츠 제작: 밈 제작, 비디오 더빙
  • 게임 개발: 캐릭터 음성, 게임 내레이션
  • AI 에이전트: 스마트 어시스턴트, 챗봇
  • 인터랙티브 미디어: 인터랙티브 앱, 교육 콘텐츠
  • 음성 변환: 음성 스타일 변환

설치 및 사용

빠른 설치

pip install chatterbox-tts

기본 사용 예시

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# 모델 초기화
model = ChatterboxTTS.from_pretrained(device="cuda")

# 음성 생성
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# 오디오 프롬프트를 사용하여 음성 복제
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

파라미터 튜닝 가이드

일반적인 사용 (TTS 및 음성 에이전트)

  • 기본 설정: exaggeration=0.5, cfg=0.5는 대부분의 프롬프트에 적합
  • 빠른 음성 스타일: 참조 화자의 말하기 속도가 빠르면 cfg를 약 0.3으로 낮춰 리듬 개선

표현력이 풍부하거나 극적인 음성

  • 낮은 CFG 값: 낮은 cfg 값(예: ~0.3) 시도
  • 높은 과장도: exaggeration을 약 0.7 이상으로 증가
  • 속도 보상: 높은 exaggeration은 음성 속도를 높이므로 cfg를 낮추면 더 느리고 신중한 리듬으로 보상하는 데 도움

기술 아키텍처

모델 아키텍처

  • 백본 네트워크: Llama 아키텍처 기반의 5억 파라미터 모델
  • 훈련 데이터: 50만 시간의 고품질 깨끗한 데이터
  • 추론 최적화: 정렬 인식 추론 기술로 안정성 보장

보안 기능

  • 내장 워터마크: Resemble AI의 Perth(인지 임계값) 워터마크 기술 사용
  • 검출 정확도: 워터마크는 MP3 압축, 오디오 편집 및 일반적인 작업 후에도 거의 100%의 검출 정확도 유지
  • 투명성: 오픈 소스 모델은 완전한 투명성과 제어 제공

프로젝트 리소스

상업 지원

확장 또는 더 높은 정확도를 위한 튜닝이 필요한 사용자를 위해 Resemble AI는 다음과 같은 특징을 가진 경쟁력 있는 가격의 TTS 서비스를 제공합니다.

  • 안정적인 성능: 안정적인 생산 등급 서비스
  • 초저지연: 200ms 미만의 응답 시간
  • 적용 분야: 에이전트, 애플리케이션 또는 인터랙티브 미디어의 생산 사용

사용 시 주의사항

본 모델은 책임감 있게 사용해야 하며 악의적인 목적으로 사용해서는 안 됩니다. 훈련 프롬프트는 인터넷에서 무료로 사용할 수 있는 데이터를 기반으로 합니다.

기여 및 커뮤니티

오픈 소스 프로젝트로서 Chatterbox는 커뮤니티 기여를 환영합니다. 개발자는 GitHub를 통해 프로젝트 개발에 참여하고 문제 보고서 또는 기능 제안을 제출할 수 있습니다.

Star History Chart