Home
Login
SparkAudio/Spark-TTS

Spark-TTS : un système de synthèse vocale efficace basé sur un grand modèle de langage, prenant en charge le clonage vocal zéro-shot et la génération vocale contrôlable.

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09
https://github.com/SparkAudio/Spark-TTS

Présentation détaillée du projet Spark-TTS

Aperçu du projet

Spark-TTS est un système avancé de synthèse vocale (TTS) basé sur un grand modèle de langage (LLM), développé par l'équipe SparkAudio. Ce système utilise une technologie innovante de jetons vocaux découplés à flux unique, capable de générer une synthèse vocale de haute qualité et naturelle. Le projet est construit sur le grand modèle de langage Qwen2.5 et est spécialement conçu pour les environnements de recherche et de production, avec des caractéristiques d'efficacité, de flexibilité et de puissance.

Fonctionnalités et caractéristiques principales

1. Conception d'architecture simple et efficace

  • Entièrement basé sur Qwen2.5, sans modèle de génération supplémentaire (tel qu'un modèle de correspondance de flux)
  • Reconstruction directe de l'audio à partir du code prédit par le LLM, simplifiant le processus de traitement
  • Améliore l'efficacité et réduit la complexité du système

2. Clonage vocal zéro-shot

  • Prend en charge la technologie de clonage vocal zéro-shot, permettant de reproduire la voix d'un locuteur sans données d'entraînement spécifiques
  • Idéal pour les scénarios de commutation de langues et de code
  • Capable de basculer de manière transparente entre différentes langues et voix

3. Capacité de prise en charge bilingue

  • Prend en charge la synthèse vocale en chinois et en anglais
  • Possède une capacité de clonage vocal zéro-shot interlingue
  • Maintient un haut niveau de naturel et de précision dans un environnement multilingue

4. Génération vocale contrôlable

  • Prend en charge la création de locuteurs virtuels en ajustant les paramètres
  • Permet de contrôler les caractéristiques vocales telles que le sexe, la tonalité, le débit de parole, etc.
  • Offre un contrôle grossier des attributs et un réglage fin des paramètres

5. Architecture technique avancée

  • Technologie BiCodec : Codec vocal à flux unique qui décompose la parole en deux types de jetons complémentaires
    • Jetons sémantiques à faible débit binaire : pour le contenu linguistique
    • Jetons globaux de longueur fixe : pour les attributs spécifiques au locuteur
  • Méthode de génération Chain-of-Thought (CoT) : Combine la représentation découplée pour un contrôle précis

Spécifications techniques

Configuration système requise

  • Système d'exploitation : Linux (principalement pris en charge), Windows (voir le guide d'installation)
  • Version de Python : 3.12+
  • Framework d'apprentissage profond : PyTorch 2.5+
  • Licence : Apache 2.0

Informations sur le modèle

  • Nom du modèle : Spark-TTS-0.5B
  • Plateforme d'hébergement : Hugging Face
  • Plateforme prise en charge : Prend en charge le service d'inférence Nvidia Triton

Installation et utilisation

Installation de base

# Cloner le dépôt
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# Créer un environnement Conda
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

Téléchargement du modèle

# Télécharger via Python
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

Mode d'utilisation

  1. Interface de ligne de commande : Prend en charge l'inférence directe en ligne de commande
  2. Interface utilisateur Web : Fournit une interface graphique, prenant en charge le clonage vocal et la création vocale
  3. Interface API : Prend en charge l'appel programmatique

Performances

Performances d'inférence

  • Tests de référence effectués sur un seul GPU L20
  • Données de test : 26 paires d'audio d'invite/texte cible différents (total de 169 secondes d'audio)
  • Prend en charge le traitement à haute concurrence
  • Fournit des indicateurs de performance du facteur de temps réel (RTF)

Qualité vocale

  • Effet de clonage vocal zéro-shot de haute qualité
  • Prend en charge la reproduction vocale de diverses personnalités et personnages célèbres
  • Maintient d'excellentes performances dans un environnement bilingue chinois-anglais

Scénarios d'application

Recherche académique

  • Recherche sur la technologie de synthèse vocale
  • Recherche en linguistique
  • Recherche en intelligence artificielle et en apprentissage automatique

Applications pratiques

  • Synthèse vocale personnalisée
  • Développement de technologies d'assistance
  • Production de contenu multimédia
  • Outils de communication interlingue

Avantages techniques

  1. Architecture innovante : Nouvelle conception basée sur des jetons vocaux découplés à flux unique
  2. Implémentation efficace : Reconstruction directe de l'audio à partir de la sortie du LLM, évitant les étapes intermédiaires complexes
  3. Contrôle flexible : Prend en charge le contrôle des caractéristiques vocales à plusieurs niveaux
  4. Capacité interlingue : Excellentes performances multilingues et interlingues
  5. Apprentissage zéro-shot : S'adapte à de nouveaux locuteurs sans entraînement supplémentaire

Éthique et règles d'utilisation

Le projet définit clairement les règles d'utilisation :

  • Uniquement pour la recherche académique, les fins éducatives et les applications légales
  • Interdiction d'utiliser pour le clonage vocal non autorisé, l'usurpation d'identité, la fraude et autres activités illégales
  • Les utilisateurs doivent respecter les lois et réglementations locales et les normes éthiques
  • Les développeurs ne sont pas responsables de l'utilisation abusive

Conclusion

Spark-TTS est un système de synthèse vocale technologiquement avancé et puissant, qui représente l'avant-garde de la technologie TTS actuelle. Grâce à une conception d'architecture innovante et à des technologies d'apprentissage profond avancées, il offre une qualité vocale exceptionnelle et une capacité de contrôle flexible tout en maintenant une grande efficacité. Ce projet est non seulement adapté à la recherche académique, mais possède également un potentiel d'application pratique, et constitue une contribution importante au domaine de la synthèse vocale.