Série de modèles TTS open-source avancés prenant en charge la génération de parole multilingue, le clonage de voix en 3 secondes et la synthèse en streaming à latence ultra-faible.

PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026

Qwen3-TTS : Série de modèles avancés de synthèse vocale multilingue

Aperçu du projet

Qwen3-TTS est une série open-source de modèles avancés de synthèse vocale (TTS) développée par l'équipe Qwen d'Alibaba Cloud. Lancée en janvier 2026, cette suite TTS complète représente une avancée significative dans la technologie de synthèse vocale, offrant des capacités sans précédent en matière de génération de voix, de clonage et de synthèse en flux continu en temps réel.

Caractéristiques et capacités clés

Fonctionnalités de base

  • Prise en charge multilingue : Prise en charge native de 10 langues majeures, dont le chinois, l'anglais, le japonais, le coréen, l'allemand, le français, le russe, le portugais, l'espagnol et l'italien.
  • Clonage de voix : Clonage vocal rapide de pointe en 3 secondes à partir d'une entrée audio minimale.
  • Conception de voix : Créez des voix entièrement nouvelles à l'aide de descriptions en langage naturel.
  • Génération en flux continu : Génération en flux continu à latence ultra-faible avec émission du premier paquet en 97 ms.
  • Contrôle vocal personnalisé : Contrôle granulaire des attributs acoustiques, y compris le timbre, l'émotion et la prosodie.

Architecture technique

Architecture de modèle linguistique à double voie

Qwen3-TTS emploie une architecture innovante de génération hybride en flux continu à double voie qui prend en charge les modes de génération en flux continu et hors flux continu. Cette conception permet une sortie audio immédiate après l'entrée d'un seul caractère, ce qui la rend idéale pour les applications interactives en temps réel.

Deux synthétiseurs de parole

  1. Qwen-TTS-Tokenizer-25Hz :

    • Codeur à livre unique mettant l'accent sur le contenu sémantique.
    • Intégration transparente avec les modèles Qwen-Audio.
    • Prend en charge la reconstruction de formes d'onde en flux continu via DiT par blocs.
  2. Qwen-TTS-Tokenizer-12Hz :

    • Conception à plusieurs livres avec 16 couches fonctionnant à 12,5 Hz.
    • Réduction extrême du débit binaire pour une génération en flux continu à latence ultra-faible.
    • ConvNet causal léger pour une reconstruction vocale efficace.

Variantes de modèles

Modèles disponibles

  • Qwen3-TTS-12Hz-1.7B-Base : Modèle de base pour le clonage vocal et le réglage fin.
  • Qwen3-TTS-12Hz-1.7B-CustomVoice : Préconfiguré avec 9 timbres vocaux premium.
  • Qwen3-TTS-12Hz-1.7B-VoiceDesign : Spécialisé pour la création de voix basée sur des descriptions.
  • Qwen3-TTS-12Hz-0.6B-CustomVoice : Version légère avec des capacités de voix personnalisées.
  • Qwen3-TTS-12Hz-0.6B-Base : Modèle de base compact.

Données d'entraînement

  • Entraîné sur plus de 5 millions d'heures de données vocales de haute qualité.
  • Couverture complète de 10 langues et de plusieurs profils dialectaux.
  • Compréhension contextuelle avancée pour un contrôle adaptatif du ton et de l'expression émotionnelle.

Innovations techniques

Représentation vocale avancée

  • Désenchevêtrement sémantique-acoustique : Sépare le contenu sémantique de haut niveau des détails acoustiques.
  • Prédiction multi-tokens (MTP) : Permet un décodage vocal immédiat à partir de la première trame du codeur.
  • Entraînement basé sur GAN : Le générateur opère sur des formes d'onde brutes avec un discriminateur améliorant le naturel.

Capacités de génération en flux continu

  • Architecture causale : Encodeurs et décodeurs de caractéristiques entièrement causaux pour le traitement en temps réel.
  • Synthèse en temps réel : Latence de synthèse de bout en bout aussi faible que 97 ms.
  • Décodage incrémental : Reconstruction audio progressive à partir de tokens discrets.

Installation et utilisation

Installation rapide

# Créer un environnement isolé
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# Installer via PyPI
pip install qwen-tts

# Facultatif : FlashAttention 2 pour l'optimisation de la mémoire
pip install flash-attn

Installation pour le développement

git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .

Exemple d'utilisation de base

from qwen_tts import Qwen3TTSModel
import torch

# Charger le modèle
tts = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)

# Générer la parole
text = "Bonjour, c'est Qwen3-TTS qui parle !"
wavs, sr = tts.generate_speech(text)

Performances et benchmarks

Résultats de pointe

  • Performances supérieures sur les ensembles de tests multilingues TTS.
  • Excellents scores sur les benchmarks InstructTTSEval.
  • Résultats exceptionnels sur les tâches de génération de parole longue.
  • Gestion robuste des textes d'entrée bruités.

Métriques de qualité

  • Reconstruction vocale haute fidélité.
  • Prosodie et expression émotionnelle naturelles.
  • Qualité vocale cohérente entre les langues.
  • Artefacts minimaux en mode flux continu.

Intégration et déploiement

Prise en charge des plateformes

  • vLLM-Omni : Prise en charge officielle jour 0 pour le déploiement et l'inférence.
  • ComfyUI : Plusieurs implémentations communautaires pour l'intégration des flux de travail.
  • Hugging Face : Hébergement direct des modèles et API d'inférence.
  • API DashScope : Plateforme de déploiement optimisée d'Alibaba Cloud.

Exigences matérielles

  • GPU compatible CUDA recommandé.
  • Matériel compatible FlashAttention 2 pour des performances optimales.
  • Prise en charge de la précision torch.float16 ou torch.bfloat16.

Communauté et écosystème

Engagement open-source

  • Publié sous licence Apache 2.0.
  • Poids complets des modèles et tokenizers disponibles.
  • Documentation et exemples complets.
  • Support actif du développement communautaire.

Intégrations communautaires

  • Plusieurs implémentations de nœuds personnalisés ComfyUI.
  • Bibliothèques et outils d'encapsulation tiers.
  • Intégration avec les frameworks ML populaires.
  • Code d'exemple et tutoriels étendus.

Recherche et développement

Article technique

Le projet est accompagné d'un rapport technique complet (arXiv:2601.15621) détaillant l'architecture, la méthodologie d'entraînement et les évaluations de performance.

Feuille de route future

  • Capacités de service en ligne améliorées.
  • Prise en charge linguistique supplémentaire.
  • Optimisations des performances de génération en flux continu améliorées.
  • Intégration étendue avec les systèmes d'IA multimodaux.

Conclusion

Qwen3-TTS représente un bond en avant significatif dans la technologie open-source de synthèse vocale. Avec sa combinaison de prise en charge multilingue, de génération en flux continu à latence ultra-faible, de capacités avancées de clonage vocal et de performances robustes dans divers scénarios, il établit une nouvelle norme pour la synthèse vocale accessible et de haute qualité. L'engagement du projet envers le développement open-source et la documentation complète en fait un excellent choix pour les chercheurs, les développeurs et les organisations à la recherche de capacités TTS de pointe.

Star History Chart