Spark-TTS 是一个基于大语言模型(LLM)的先进文本转语音系统,由 SparkAudio 团队开发。该系统采用创新的单流解耦语音令牌技术,能够生成高质量、自然的语音合成效果。项目基于 Qwen2.5 大语言模型构建,专为研究和生产环境设计,具有高效、灵活、强大的特点。
# 克隆仓库
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
# 创建Conda环境
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
# 通过Python下载
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
项目明确规定了使用准则:
Spark-TTS 是一个技术先进、功能强大的文本转语音系统,代表了当前 TTS 技术的前沿水平。通过创新的架构设计和先进的深度学习技术,它在保持高效性的同时提供了卓越的语音质量和灵活的控制能力。该项目不仅适合学术研究,也具备实际应用的潜力,是语音合成领域的重要贡献。