wanaigc/ComfyUI-Qwen3-TTS View GitHub Homepage for Latest Official Releases

Fortschrittliche Open-Source-TTS-Modellreihe, die mehrsprachige Spracherzeugung, 3-Sekunden-Stimmklonung und Streaming-Synthese mit extrem niedriger Latenz unterstützt

PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026

Qwen3-TTS: Fortschrittliche mehrsprachige Text-to-Speech-Modellreihe

Projektübersicht

Qwen3-TTS ist eine Open-Source-Reihe fortschrittlicher Text-to-Speech (TTS)-Modelle, die vom Qwen-Team bei Alibaba Cloud entwickelt wurde. Diese umfassende TTS-Suite, die im Januar 2026 veröffentlicht wurde, stellt einen bedeutenden Fortschritt in der Sprachsynthesetechnologie dar und bietet beispiellose Fähigkeiten in den Bereichen Spracherzeugung, Klonen und Echtzeit-Streaming-Synthese.

Hauptmerkmale und Fähigkeiten

Kernfunktionalität

Mehrsprachige Unterstützung: Native Unterstützung für 10 Hauptsprachen, darunter Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Russisch, Portugiesisch, Spanisch und Italienisch
Stimmklonen: Modernstes 3-Sekunden-Schnellklonen von Stimmen aus minimalem Audio-Input
Stimmdesign: Erstellung völlig neuer Stimmen anhand von natürlichsprachlichen Beschreibungen
Streaming-Generierung: Streaming mit extrem niedriger Latenz und 97 ms erster Paketemission
Benutzerdefinierte Stimmkontrolle: Fein abgestimmte Kontrolle über akustische Attribute, einschließlich Timbre, Emotion und Prosodie

Technische Architektur

Dual-Track-Sprachmodellarchitektur

Qwen3-TTS verwendet eine innovative Dual-Track-Hybrid-Streaming-Generierungsarchitektur, die sowohl Streaming- als auch Nicht-Streaming-Generierungsmodi unterstützt. Dieses Design ermöglicht eine sofortige Audioausgabe nach der Eingabe einzelner Zeichen, was es ideal für Echtzeit-interaktive Anwendungen macht.

Zwei Sprachtokenizer

Qwen-TTS-Tokenizer-25Hz:
- Single-Codebook-Codec mit Schwerpunkt auf semantischem Inhalt
- Nahtlose Integration mit Qwen-Audio-Modellen
- Unterstützt Streaming-Wellenformrekonstruktion über blockweise DiT
Qwen-TTS-Tokenizer-12Hz:
- Multi-Codebook-Design mit 16 Schichten, die mit 12,5 Hz arbeiten
- Extreme Bitratenreduzierung für Streaming mit extrem niedriger Latenz
- Leichtgewichtiger kausaler ConvNet für effiziente Sprachrekonstruktion

Modellvarianten

Verfügbare Modelle

Qwen3-TTS-12Hz-1.7B-Base: Basismodell für Stimmklonen und Fine-Tuning
Qwen3-TTS-12Hz-1.7B-CustomVoice: Vorkonfiguriert mit 9 Premium-Stimmtimbre
Qwen3-TTS-12Hz-1.7B-VoiceDesign: Spezialisiert auf beschreibungsbasierte Stimmenerstellung
Qwen3-TTS-12Hz-0.6B-CustomVoice: Leichtgewichtige Version mit benutzerdefinierten Stimmfunktionen
Qwen3-TTS-12Hz-0.6B-Base: Kompaktes Basismodell

Trainingsdaten

Trainiert auf über 5 Millionen Stunden hochwertiger Sprachdaten
Umfassende Abdeckung von 10 Sprachen und mehreren dialektalen Profilen
Fortgeschrittenes kontextuelles Verständnis für adaptive Ton- und Emotionsausdruckskontrolle

Technische Innovationen

Fortschrittliche Sprachrepräsentation

Semantisch-akustische Entflechtung: Trennt semantische Inhalte auf hoher Ebene von akustischen Details
Multi-Token-Vorhersage (MTP): Ermöglicht sofortige Sprachdekodierung ab dem ersten Codec-Frame
GAN-basiertes Training: Der Generator arbeitet mit Rohwellenformen, während der Diskriminator die Natürlichkeit verbessert

Streaming-Fähigkeiten

Kausale Architektur: Vollständig kausale Feature-Encoder und -Decoder für Echtzeitverarbeitung
Echtzeitsynthese: End-to-End-Syntheselatenz von nur 97 ms
Inkrementelle Dekodierung: Progressive Audiorekonstruktion aus diskreten Tokens

Installation und Verwendung

Schnelle Installation

# Isoliertes Umfeld erstellen
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# Installation über PyPI
pip install qwen-tts

# Optional: FlashAttention 2 für Speicheroptimierung
pip install flash-attn

Entwicklungsinstallation

git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .

Grundlegendes Nutzungsbeispiel

from qwen_tts import Qwen3TTSModel
import torch

# Modell laden
tts = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)

# Sprache generieren
text = "Hallo, hier spricht Qwen3-TTS!"
wavs, sr = tts.generate_speech(text)

Leistung und Benchmarks

State-of-the-Art-Ergebnisse

Überlegene Leistung auf mehrsprachigen TTS-Testdatensätzen
Ausgezeichnete Ergebnisse auf InstructTTSEval-Benchmarks
Herausragende Ergebnisse bei Langsprachgenerierungsaufgaben
Robuste Verarbeitung von verrauschten Eingabetexten

Qualitätsmetriken

Hochauflösende Sprachrekonstruktion
Natürliche Prosodie und emotionaler Ausdruck
Konsistente Stimmqualität über Sprachen hinweg
Minimale Artefakte im Streaming-Modus

Integration und Bereitstellung

Plattformunterstützung

vLLM-Omni: Offizielle Day-0-Unterstützung für Bereitstellung und Inferenz
ComfyUI: Mehrere Community-Implementierungen für die Workflow-Integration
Hugging Face: Direkte Modell-Hosting- und Inferenz-APIs
DashScope API: Optimierte Bereitstellungsplattform von Alibaba Cloud

Hardwareanforderungen

CUDA-kompatible GPU empfohlen
FlashAttention 2-kompatible Hardware für optimale Leistung
Unterstützung für torch.float16 oder torch.bfloat16 Präzision

Community und Ökosystem

Open-Source-Verpflichtung

Veröffentlicht unter der Apache 2.0 Lizenz
Vollständige Modellgewichte und Tokenizer verfügbar
Umfassende Dokumentation und Beispiele
Aktive Unterstützung der Community-Entwicklung

Community-Integrationen

Mehrere benutzerdefinierte ComfyUI-Knotenimplementierungen
Drittanbieter-Wrapper-Bibliotheken und -Tools
Integration mit gängigen ML-Frameworks
Umfangreicher Beispielcode und Tutorials

Forschung und Entwicklung

Technisches Papier

Das Projekt wird von einem umfassenden technischen Bericht (arXiv:2601.15621) begleitet, der die Architektur, die Trainingsmethodik und die Leistungsauswertungen detailliert beschreibt.

Zukünftige Roadmap

Verbesserte Online-Serving-Fähigkeiten
Zusätzliche Sprachunterstützung
Optimierungen der Streaming-Leistung
Erweiterte Integration mit multimodalen KI-Systemen

Fazit

Qwen3-TTS stellt einen bedeutenden Sprung nach vorn in der Open-Source-Text-to-Speech-Technologie dar. Mit seiner Kombination aus mehrsprachiger Unterstützung, Streaming mit extrem niedriger Latenz, fortschrittlichen Stimmklonfähigkeiten und robuster Leistung in verschiedenen Szenarien setzt es einen neuen Standard für zugängliche, qualitativ hochwertige Sprachsynthese. Das Engagement des Projekts für Open-Source-Entwicklung und umfassende Dokumentation macht es zu einer ausgezeichneten Wahl für Forscher, Entwickler und Organisationen, die nach State-of-the-Art-TTS-Fähigkeiten suchen.