wanaigc/ComfyUI-Qwen3-TTS View GitHub Homepage for Latest Official Releases
다국어 음성 생성, 3초 음성 복제 및 초저지연 스트리밍 합성을 지원하는 고급 오픈소스 TTS 모델 시리즈
PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026
Qwen3-TTS: 고급 다국어 텍스트 음성 변환 모델 시리즈
프로젝트 개요
Qwen3-TTS는 Alibaba Cloud의 Qwen 팀에서 개발한 오픈 소스 고급 텍스트 음성 변환(TTS) 모델 시리즈입니다. 2026년 1월에 출시된 이 포괄적인 TTS 제품군은 음성 생성, 복제 및 실시간 스트리밍 합성에서 전례 없는 기능을 제공하며 음성 합성 기술의 중요한 발전을 나타냅니다.
주요 기능 및 역량
핵심 기능
- 다국어 지원: 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어를 포함한 10개 주요 언어에 대한 네이티브 지원
- 음성 복제: 최소한의 오디오 입력으로 최첨단 3초 빠른 음성 복제
- 음성 디자인: 자연어 설명을 사용하여 완전히 새로운 음성 생성
- 스트리밍 생성: 97ms 첫 패킷 방출로 초저지연 스트리밍
- 사용자 지정 음성 제어: 음색, 감정 및 운율을 포함한 음향 속성에 대한 세밀한 제어
기술 아키텍처
이중 트랙 언어 모델 아키텍처
Qwen3-TTS는 스트리밍 및 비스트리밍 생성 모드를 모두 지원하는 혁신적인 이중 트랙 하이브리드 스트리밍 생성 아키텍처를 사용합니다. 이 설계를 통해 단일 문자 입력 후 즉시 오디오 출력이 가능하므로 실시간 대화형 애플리케이션에 이상적입니다.
두 개의 음성 토크나이저
Qwen-TTS-Tokenizer-25Hz:
- 의미론적 콘텐츠를 강조하는 단일 코드북 코덱
- Qwen-Audio 모델과의 원활한 통합
- 블록별 DiT를 통한 스트리밍 파형 재구축 지원
Qwen-TTS-Tokenizer-12Hz:
- 12.5Hz에서 작동하는 16개 레이어가 있는 다중 코드북 설계
- 초저지연 스트리밍을 위한 극단적인 비트 전송률 감소
- 효율적인 음성 재구축을 위한 경량 인과 ConvNet
모델 변형
사용 가능한 모델
- Qwen3-TTS-12Hz-1.7B-Base: 음성 복제 및 미세 조정을 위한 기본 모델
- Qwen3-TTS-12Hz-1.7B-CustomVoice: 9개의 프리미엄 음성 음색으로 사전 구성됨
- Qwen3-TTS-12Hz-1.7B-VoiceDesign: 설명 기반 음성 생성을 위해 특수화됨
- Qwen3-TTS-12Hz-0.6B-CustomVoice: 사용자 지정 음성 기능을 갖춘 경량 버전
- Qwen3-TTS-12Hz-0.6B-Base: 컴팩트한 기본 모델
학습 데이터
- 5백만 시간 이상의 고품질 음성 데이터로 학습
- 10개 언어 및 여러 방언 프로필에 대한 포괄적인 커버리지
- 적응형 톤 및 감정 표현 제어를 위한 고급 맥락 이해
기술 혁신
고급 음성 표현
- 의미론적-음향 분리: 고수준 의미론적 콘텐츠와 음향 세부 정보를 분리
- 다중 토큰 예측(MTP): 첫 번째 코덱 프레임에서 즉시 음성 디코딩 가능
- GAN 기반 학습: 생성기는 원시 파형에서 작동하고 판별기는 자연스러움을 개선
스트리밍 기능
- 인과 아키텍처: 실시간 처리를 위한 완전한 인과 특징 인코더 및 디코더
- 실시간 합성: 97ms만큼 낮은 종단 간 합성 지연
- 점진적 디코딩: 이산 토큰에서 점진적인 오디오 재구축
설치 및 사용
빠른 설치
# 격리된 환경 생성
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# PyPI를 통해 설치
pip install qwen-tts
# 선택 사항: 메모리 최적화를 위한 FlashAttention 2
pip install flash-attn
개발 설치
git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .
기본 사용 예시
from qwen_tts import Qwen3TTSModel
import torch
# 모델 로드
tts = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-1.7B-Base",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2"
)
# 음성 생성
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)
성능 및 벤치마크
최첨단 결과
- TTS 다국어 테스트 세트에서 우수한 성능
- InstructTTSEval 벤치마크에서 우수한 점수
- 긴 음성 생성 작업에서 뛰어난 결과
- 노이즈가 있는 입력 텍스트의 강력한 처리
품질 지표
- 고충실도 음성 재구축
- 자연스러운 운율 및 감정 표현
- 언어 전반에 걸친 일관된 음성 품질
- 스트리밍 모드에서 최소한의 아티팩트
통합 및 배포
플랫폼 지원
- vLLM-Omni: 배포 및 추론을 위한 공식 당일 지원
- ComfyUI: 워크플로 통합을 위한 여러 커뮤니티 구현
- Hugging Face: 직접 모델 호스팅 및 추론 API
- DashScope API: Alibaba Cloud의 최적화된 배포 플랫폼
하드웨어 요구 사항
- CUDA 호환 GPU 권장
- 최적의 성능을 위한 FlashAttention 2 호환 하드웨어
- torch.float16 또는 torch.bfloat16 정밀도 지원
커뮤니티 및 생태계
오픈 소스 약속
- Apache 2.0 라이선스 하에 출시
- 전체 모델 가중치 및 토크나이저 사용 가능
- 포괄적인 문서 및 예제
- 활발한 커뮤니티 개발 지원
커뮤니티 통합
- 여러 ComfyUI 사용자 지정 노드 구현
- 타사 래퍼 라이브러리 및 도구
- 인기 있는 ML 프레임워크와의 통합
- 광범위한 예제 코드 및 튜토리얼
연구 및 개발
기술 논문
이 프로젝트에는 아키텍처, 학습 방법론 및 성능 평가를 자세히 설명하는 포괄적인 기술 보고서(arXiv:2601.15621)가 함께 제공됩니다.
향후 로드맵
- 향상된 온라인 서비스 기능
- 추가 언어 지원
- 개선된 스트리밍 성능 최적화
- 멀티모달 AI 시스템과의 통합 확장
결론
Qwen3-TTS는 오픈 소스 텍스트 음성 변환 기술의 중요한 도약을 나타냅니다. 다국어 지원, 초저지연 스트리밍, 고급 음성 복제 기능 및 다양한 시나리오에 걸친 강력한 성능의 조합으로 접근 가능하고 고품질 음성 합성에 대한 새로운 표준을 설정합니다. 오픈 소스 개발 및 포괄적인 문서에 대한 프로젝트의 약속은 최첨단 TTS 기능을 찾는 연구원, 개발자 및 조직에게 훌륭한 선택이 됩니다.