다국어 음성 생성, 3초 음성 복제 및 초저지연 스트리밍 합성을 지원하는 고급 오픈소스 TTS 모델 시리즈

PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026

Qwen3-TTS: 고급 다국어 텍스트 음성 변환 모델 시리즈

프로젝트 개요

Qwen3-TTS는 Alibaba Cloud의 Qwen 팀에서 개발한 오픈 소스 고급 텍스트 음성 변환(TTS) 모델 시리즈입니다. 2026년 1월에 출시된 이 포괄적인 TTS 제품군은 음성 생성, 복제 및 실시간 스트리밍 합성에서 전례 없는 기능을 제공하며 음성 합성 기술의 중요한 발전을 나타냅니다.

주요 기능 및 역량

핵심 기능

  • 다국어 지원: 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어를 포함한 10개 주요 언어에 대한 네이티브 지원
  • 음성 복제: 최소한의 오디오 입력으로 최첨단 3초 빠른 음성 복제
  • 음성 디자인: 자연어 설명을 사용하여 완전히 새로운 음성 생성
  • 스트리밍 생성: 97ms 첫 패킷 방출로 초저지연 스트리밍
  • 사용자 지정 음성 제어: 음색, 감정 및 운율을 포함한 음향 속성에 대한 세밀한 제어

기술 아키텍처

이중 트랙 언어 모델 아키텍처

Qwen3-TTS는 스트리밍 및 비스트리밍 생성 모드를 모두 지원하는 혁신적인 이중 트랙 하이브리드 스트리밍 생성 아키텍처를 사용합니다. 이 설계를 통해 단일 문자 입력 후 즉시 오디오 출력이 가능하므로 실시간 대화형 애플리케이션에 이상적입니다.

두 개의 음성 토크나이저

  1. Qwen-TTS-Tokenizer-25Hz:

    • 의미론적 콘텐츠를 강조하는 단일 코드북 코덱
    • Qwen-Audio 모델과의 원활한 통합
    • 블록별 DiT를 통한 스트리밍 파형 재구축 지원
  2. Qwen-TTS-Tokenizer-12Hz:

    • 12.5Hz에서 작동하는 16개 레이어가 있는 다중 코드북 설계
    • 초저지연 스트리밍을 위한 극단적인 비트 전송률 감소
    • 효율적인 음성 재구축을 위한 경량 인과 ConvNet

모델 변형

사용 가능한 모델

  • Qwen3-TTS-12Hz-1.7B-Base: 음성 복제 및 미세 조정을 위한 기본 모델
  • Qwen3-TTS-12Hz-1.7B-CustomVoice: 9개의 프리미엄 음성 음색으로 사전 구성됨
  • Qwen3-TTS-12Hz-1.7B-VoiceDesign: 설명 기반 음성 생성을 위해 특수화됨
  • Qwen3-TTS-12Hz-0.6B-CustomVoice: 사용자 지정 음성 기능을 갖춘 경량 버전
  • Qwen3-TTS-12Hz-0.6B-Base: 컴팩트한 기본 모델

학습 데이터

  • 5백만 시간 이상의 고품질 음성 데이터로 학습
  • 10개 언어 및 여러 방언 프로필에 대한 포괄적인 커버리지
  • 적응형 톤 및 감정 표현 제어를 위한 고급 맥락 이해

기술 혁신

고급 음성 표현

  • 의미론적-음향 분리: 고수준 의미론적 콘텐츠와 음향 세부 정보를 분리
  • 다중 토큰 예측(MTP): 첫 번째 코덱 프레임에서 즉시 음성 디코딩 가능
  • GAN 기반 학습: 생성기는 원시 파형에서 작동하고 판별기는 자연스러움을 개선

스트리밍 기능

  • 인과 아키텍처: 실시간 처리를 위한 완전한 인과 특징 인코더 및 디코더
  • 실시간 합성: 97ms만큼 낮은 종단 간 합성 지연
  • 점진적 디코딩: 이산 토큰에서 점진적인 오디오 재구축

설치 및 사용

빠른 설치

# 격리된 환경 생성
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# PyPI를 통해 설치
pip install qwen-tts

# 선택 사항: 메모리 최적화를 위한 FlashAttention 2
pip install flash-attn

개발 설치

git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .

기본 사용 예시

from qwen_tts import Qwen3TTSModel
import torch

# 모델 로드
tts = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)

# 음성 생성
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)

성능 및 벤치마크

최첨단 결과

  • TTS 다국어 테스트 세트에서 우수한 성능
  • InstructTTSEval 벤치마크에서 우수한 점수
  • 긴 음성 생성 작업에서 뛰어난 결과
  • 노이즈가 있는 입력 텍스트의 강력한 처리

품질 지표

  • 고충실도 음성 재구축
  • 자연스러운 운율 및 감정 표현
  • 언어 전반에 걸친 일관된 음성 품질
  • 스트리밍 모드에서 최소한의 아티팩트

통합 및 배포

플랫폼 지원

  • vLLM-Omni: 배포 및 추론을 위한 공식 당일 지원
  • ComfyUI: 워크플로 통합을 위한 여러 커뮤니티 구현
  • Hugging Face: 직접 모델 호스팅 및 추론 API
  • DashScope API: Alibaba Cloud의 최적화된 배포 플랫폼

하드웨어 요구 사항

  • CUDA 호환 GPU 권장
  • 최적의 성능을 위한 FlashAttention 2 호환 하드웨어
  • torch.float16 또는 torch.bfloat16 정밀도 지원

커뮤니티 및 생태계

오픈 소스 약속

  • Apache 2.0 라이선스 하에 출시
  • 전체 모델 가중치 및 토크나이저 사용 가능
  • 포괄적인 문서 및 예제
  • 활발한 커뮤니티 개발 지원

커뮤니티 통합

  • 여러 ComfyUI 사용자 지정 노드 구현
  • 타사 래퍼 라이브러리 및 도구
  • 인기 있는 ML 프레임워크와의 통합
  • 광범위한 예제 코드 및 튜토리얼

연구 및 개발

기술 논문

이 프로젝트에는 아키텍처, 학습 방법론 및 성능 평가를 자세히 설명하는 포괄적인 기술 보고서(arXiv:2601.15621)가 함께 제공됩니다.

향후 로드맵

  • 향상된 온라인 서비스 기능
  • 추가 언어 지원
  • 개선된 스트리밍 성능 최적화
  • 멀티모달 AI 시스템과의 통합 확장

결론

Qwen3-TTS는 오픈 소스 텍스트 음성 변환 기술의 중요한 도약을 나타냅니다. 다국어 지원, 초저지연 스트리밍, 고급 음성 복제 기능 및 다양한 시나리오에 걸친 강력한 성능의 조합으로 접근 가능하고 고품질 음성 합성에 대한 새로운 표준을 설정합니다. 오픈 소스 개발 및 포괄적인 문서에 대한 프로젝트의 약속은 최첨단 TTS 기능을 찾는 연구원, 개발자 및 조직에게 훌륭한 선택이 됩니다.

Star History Chart