Home
Login
SparkAudio/Spark-TTS

Spark-TTS:基于大语言模型的高效文本转语音系统,支持零样本语音克隆和可控语音生成

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09
https://github.com/SparkAudio/Spark-TTS

Spark-TTS 项目详细介绍

项目概述

Spark-TTS 是一个基于大语言模型(LLM)的先进文本转语音系统,由 SparkAudio 团队开发。该系统采用创新的单流解耦语音令牌技术,能够生成高质量、自然的语音合成效果。项目基于 Qwen2.5 大语言模型构建,专为研究和生产环境设计,具有高效、灵活、强大的特点。

核心功能与特性

1. 简洁高效的架构设计

  • 完全基于 Qwen2.5 构建,无需额外的生成模型(如流匹配模型)
  • 直接从 LLM 预测的代码重构音频,简化了处理流程
  • 提高了效率并降低了系统复杂性

2. 零样本语音克隆

  • 支持零样本语音克隆技术,无需特定训练数据即可复制说话者的声音
  • 非常适合跨语言和代码切换场景
  • 能够在不同语言和声音之间无缝切换

3. 双语支持能力

  • 支持中文和英文语音合成
  • 具备跨语言零样本语音克隆能力
  • 在多语言环境下保持高自然度和准确性

4. 可控语音生成

  • 支持通过调整参数创建虚拟说话者
  • 可控制性别、音调、语速等语音特征
  • 提供粗粒度属性控制和细粒度参数调整

5. 先进的技术架构

  • BiCodec技术:单流语音编解码器,将语音分解为两种互补的令牌类型
    • 低比特率语义令牌:用于语言内容
    • 固定长度全局令牌:用于说话者特定属性
  • 链式思维(CoT)生成方法:结合解耦表示实现精确控制

技术规格

系统要求

  • 操作系统:Linux(主要支持),Windows(参考安装指南)
  • Python版本:3.12+
  • 深度学习框架:PyTorch 2.5+
  • 许可证:Apache 2.0

模型信息

  • 模型名称:Spark-TTS-0.5B
  • 托管平台:Hugging Face
  • 支持平台:支持 Nvidia Triton 推理服务

安装和使用

基本安装

# 克隆仓库
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# 创建Conda环境
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

模型下载

# 通过Python下载
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

使用方式

  1. 命令行接口:支持直接命令行推理
  2. Web UI界面:提供图形化界面,支持语音克隆和语音创建
  3. API接口:支持程序化调用

性能表现

推理性能

  • 在单个 L20 GPU 上进行基准测试
  • 测试数据:26对不同的提示音频/目标文本(总计169秒音频)
  • 支持高并发处理
  • 提供实时因子(RTF)性能指标

语音质量

  • 高质量的零样本语音克隆效果
  • 支持多种知名人物和角色的语音复现
  • 在中英双语环境下保持优异表现

应用场景

学术研究

  • 语音合成技术研究
  • 语言学研究
  • 人工智能和机器学习研究

实际应用

  • 个性化语音合成
  • 辅助技术开发
  • 多媒体内容制作
  • 跨语言交流工具

技术优势

  1. 创新架构:基于单流解耦语音令牌的新颖设计
  2. 高效实现:直接从LLM输出重构音频,避免复杂的中间步骤
  3. 灵活控制:支持多层次的语音特征控制
  4. 跨语言能力:优秀的多语言和跨语言性能
  5. 零样本学习:无需额外训练即可适应新的说话者

伦理和使用规范

项目明确规定了使用准则:

  • 仅用于学术研究、教育目的和合法应用
  • 禁止用于未授权的语音克隆、冒充、欺诈等非法活动
  • 用户需遵守当地法律法规和道德标准
  • 开发者不承担滥用责任

总结

Spark-TTS 是一个技术先进、功能强大的文本转语音系统,代表了当前 TTS 技术的前沿水平。通过创新的架构设计和先进的深度学习技术,它在保持高效性的同时提供了卓越的语音质量和灵活的控制能力。该项目不仅适合学术研究,也具备实际应用的潜力,是语音合成领域的重要贡献。