SparkAudio/Spark-TTS

Spark-TTS : un système de synthèse vocale efficace basé sur un grand modèle de langage, prenant en charge le clonage vocal zéro-shot et la génération vocale contrôlable.

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09

Présentation détaillée du projet Spark-TTS

Aperçu du projet

Spark-TTS est un système avancé de synthèse vocale (TTS) basé sur un grand modèle de langage (LLM), développé par l'équipe SparkAudio. Ce système utilise une technologie innovante de jetons vocaux découplés à flux unique, capable de générer une synthèse vocale de haute qualité et naturelle. Le projet est construit sur le grand modèle de langage Qwen2.5 et est spécialement conçu pour les environnements de recherche et de production, avec des caractéristiques d'efficacité, de flexibilité et de puissance.

Fonctionnalités et caractéristiques principales

1. Conception d'architecture simple et efficace

Entièrement basé sur Qwen2.5, sans modèle de génération supplémentaire (tel qu'un modèle de correspondance de flux)
Reconstruction directe de l'audio à partir du code prédit par le LLM, simplifiant le processus de traitement
Améliore l'efficacité et réduit la complexité du système

2. Clonage vocal zéro-shot

Prend en charge la technologie de clonage vocal zéro-shot, permettant de reproduire la voix d'un locuteur sans données d'entraînement spécifiques
Idéal pour les scénarios de commutation de langues et de code
Capable de basculer de manière transparente entre différentes langues et voix

3. Capacité de prise en charge bilingue

Prend en charge la synthèse vocale en chinois et en anglais
Possède une capacité de clonage vocal zéro-shot interlingue
Maintient un haut niveau de naturel et de précision dans un environnement multilingue

4. Génération vocale contrôlable

Prend en charge la création de locuteurs virtuels en ajustant les paramètres
Permet de contrôler les caractéristiques vocales telles que le sexe, la tonalité, le débit de parole, etc.
Offre un contrôle grossier des attributs et un réglage fin des paramètres

5. Architecture technique avancée

Technologie BiCodec : Codec vocal à flux unique qui décompose la parole en deux types de jetons complémentaires
- Jetons sémantiques à faible débit binaire : pour le contenu linguistique
- Jetons globaux de longueur fixe : pour les attributs spécifiques au locuteur
Méthode de génération Chain-of-Thought (CoT) : Combine la représentation découplée pour un contrôle précis

Spécifications techniques

Configuration système requise

Système d'exploitation : Linux (principalement pris en charge), Windows (voir le guide d'installation)
Version de Python : 3.12+
Framework d'apprentissage profond : PyTorch 2.5+
Licence : Apache 2.0

Informations sur le modèle

Nom du modèle : Spark-TTS-0.5B
Plateforme d'hébergement : Hugging Face
Plateforme prise en charge : Prend en charge le service d'inférence Nvidia Triton

Installation et utilisation

Installation de base

# Cloner le dépôt
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# Créer un environnement Conda
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

Téléchargement du modèle

# Télécharger via Python
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

Mode d'utilisation

Interface de ligne de commande : Prend en charge l'inférence directe en ligne de commande
Interface utilisateur Web : Fournit une interface graphique, prenant en charge le clonage vocal et la création vocale
Interface API : Prend en charge l'appel programmatique

Performances

Performances d'inférence

Tests de référence effectués sur un seul GPU L20
Données de test : 26 paires d'audio d'invite/texte cible différents (total de 169 secondes d'audio)
Prend en charge le traitement à haute concurrence
Fournit des indicateurs de performance du facteur de temps réel (RTF)

Qualité vocale

Effet de clonage vocal zéro-shot de haute qualité
Prend en charge la reproduction vocale de diverses personnalités et personnages célèbres
Maintient d'excellentes performances dans un environnement bilingue chinois-anglais

Scénarios d'application

Recherche académique

Recherche sur la technologie de synthèse vocale
Recherche en linguistique
Recherche en intelligence artificielle et en apprentissage automatique

Applications pratiques

Synthèse vocale personnalisée
Développement de technologies d'assistance
Production de contenu multimédia
Outils de communication interlingue

Avantages techniques

Architecture innovante : Nouvelle conception basée sur des jetons vocaux découplés à flux unique
Implémentation efficace : Reconstruction directe de l'audio à partir de la sortie du LLM, évitant les étapes intermédiaires complexes
Contrôle flexible : Prend en charge le contrôle des caractéristiques vocales à plusieurs niveaux
Capacité interlingue : Excellentes performances multilingues et interlingues
Apprentissage zéro-shot : S'adapte à de nouveaux locuteurs sans entraînement supplémentaire

Éthique et règles d'utilisation

Le projet définit clairement les règles d'utilisation :

Uniquement pour la recherche académique, les fins éducatives et les applications légales
Interdiction d'utiliser pour le clonage vocal non autorisé, l'usurpation d'identité, la fraude et autres activités illégales
Les utilisateurs doivent respecter les lois et réglementations locales et les normes éthiques
Les développeurs ne sont pas responsables de l'utilisation abusive

Conclusion

Spark-TTS est un système de synthèse vocale technologiquement avancé et puissant, qui représente l'avant-garde de la technologie TTS actuelle. Grâce à une conception d'architecture innovante et à des technologies d'apprentissage profond avancées, il offre une qualité vocale exceptionnelle et une capacité de contrôle flexible tout en maintenant une grande efficacité. Ce projet est non seulement adapté à la recherche académique, mais possède également un potentiel d'application pratique, et constitue une contribution importante au domaine de la synthèse vocale.