Spark-TTS é um sistema avançado de texto para voz (TTS) baseado em um modelo de linguagem grande (LLM), desenvolvido pela equipe SparkAudio. O sistema emprega uma tecnologia inovadora de token de voz desacoplado de fluxo único, capaz de gerar efeitos de síntese de voz naturais e de alta qualidade. O projeto é construído com base no modelo de linguagem grande Qwen2.5 e foi projetado para ambientes de pesquisa e produção, apresentando características de alta eficiência, flexibilidade e poder.
# Clonar o repositório
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
# Criar ambiente Conda
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
# Download via Python
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
O projeto estabelece diretrizes claras de uso:
Spark-TTS é um sistema de texto para voz tecnologicamente avançado e poderoso, representando a vanguarda da tecnologia TTS atual. Através de um design de arquitetura inovador e tecnologia avançada de aprendizado profundo, ele oferece excelente qualidade de voz e capacidade de controle flexível, mantendo a eficiência. O projeto não é apenas adequado para pesquisa acadêmica, mas também tem potencial para aplicações práticas, sendo uma importante contribuição para o campo da síntese de voz.