Spark-TTS est un système avancé de synthèse vocale (TTS) basé sur un grand modèle de langage (LLM), développé par l'équipe SparkAudio. Ce système utilise une technologie innovante de jetons vocaux découplés à flux unique, capable de générer une synthèse vocale de haute qualité et naturelle. Le projet est construit sur le grand modèle de langage Qwen2.5 et est spécialement conçu pour les environnements de recherche et de production, avec des caractéristiques d'efficacité, de flexibilité et de puissance.
# Cloner le dépôt
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
# Créer un environnement Conda
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
# Télécharger via Python
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
Le projet définit clairement les règles d'utilisation :
Spark-TTS est un système de synthèse vocale technologiquement avancé et puissant, qui représente l'avant-garde de la technologie TTS actuelle. Grâce à une conception d'architecture innovante et à des technologies d'apprentissage profond avancées, il offre une qualité vocale exceptionnelle et une capacité de contrôle flexible tout en maintenant une grande efficacité. Ce projet est non seulement adapté à la recherche académique, mais possède également un potentiel d'application pratique, et constitue une contribution importante au domaine de la synthèse vocale.