SparkAudio/Spark-TTS

Spark-TTS:基于大语言模型的高效文本转语音系统，支持零样本语音克隆和可控语音生成

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09

Spark-TTS 项目详细介绍

项目概述

Spark-TTS 是一个基于大语言模型(LLM)的先进文本转语音系统，由 SparkAudio 团队开发。该系统采用创新的单流解耦语音令牌技术，能够生成高质量、自然的语音合成效果。项目基于 Qwen2.5 大语言模型构建，专为研究和生产环境设计，具有高效、灵活、强大的特点。

核心功能与特性

1. 简洁高效的架构设计

完全基于 Qwen2.5 构建，无需额外的生成模型（如流匹配模型）
直接从 LLM 预测的代码重构音频，简化了处理流程
提高了效率并降低了系统复杂性

2. 零样本语音克隆

支持零样本语音克隆技术，无需特定训练数据即可复制说话者的声音
非常适合跨语言和代码切换场景
能够在不同语言和声音之间无缝切换

3. 双语支持能力

支持中文和英文语音合成
具备跨语言零样本语音克隆能力
在多语言环境下保持高自然度和准确性

4. 可控语音生成

支持通过调整参数创建虚拟说话者
可控制性别、音调、语速等语音特征
提供粗粒度属性控制和细粒度参数调整

5. 先进的技术架构

BiCodec技术：单流语音编解码器，将语音分解为两种互补的令牌类型
- 低比特率语义令牌：用于语言内容
- 固定长度全局令牌：用于说话者特定属性
链式思维(CoT)生成方法：结合解耦表示实现精确控制

技术规格

系统要求

操作系统：Linux（主要支持），Windows（参考安装指南）
Python版本：3.12+
深度学习框架：PyTorch 2.5+
许可证：Apache 2.0

模型信息

模型名称：Spark-TTS-0.5B
托管平台：Hugging Face
支持平台：支持 Nvidia Triton 推理服务

安装和使用

基本安装

# 克隆仓库
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# 创建Conda环境
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

模型下载

# 通过Python下载
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

使用方式

命令行接口：支持直接命令行推理
Web UI界面：提供图形化界面，支持语音克隆和语音创建
API接口：支持程序化调用

性能表现

推理性能

在单个 L20 GPU 上进行基准测试
测试数据：26对不同的提示音频/目标文本（总计169秒音频）
支持高并发处理
提供实时因子(RTF)性能指标

语音质量

高质量的零样本语音克隆效果
支持多种知名人物和角色的语音复现
在中英双语环境下保持优异表现

应用场景

学术研究

语音合成技术研究
语言学研究
人工智能和机器学习研究

实际应用

个性化语音合成
辅助技术开发
多媒体内容制作
跨语言交流工具

技术优势

创新架构：基于单流解耦语音令牌的新颖设计
高效实现：直接从LLM输出重构音频，避免复杂的中间步骤
灵活控制：支持多层次的语音特征控制
跨语言能力：优秀的多语言和跨语言性能
零样本学习：无需额外训练即可适应新的说话者

伦理和使用规范

项目明确规定了使用准则：

仅用于学术研究、教育目的和合法应用
禁止用于未授权的语音克隆、冒充、欺诈等非法活动
用户需遵守当地法律法规和道德标准
开发者不承担滥用责任

总结

Spark-TTS 是一个技术先进、功能强大的文本转语音系统，代表了当前 TTS 技术的前沿水平。通过创新的架构设计和先进的深度学习技术，它在保持高效性的同时提供了卓越的语音质量和灵活的控制能力。该项目不仅适合学术研究，也具备实际应用的潜力，是语音合成领域的重要贡献。