SparkAudio/Spark-TTS

Spark-TTS：基於大語言模型的高效文本轉語音系統，支援零樣本語音克隆和可控語音生成

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09

Spark-TTS 項目詳細介紹

項目概述

Spark-TTS 是一個基於大語言模型(LLM)的先進文本轉語音系統，由 SparkAudio 團隊開發。該系統採用創新的單流解耦語音令牌技術，能夠生成高品質、自然的語音合成效果。項目基於 Qwen2.5 大語言模型構建，專為研究和生產環境設計，具有高效、靈活、強大的特點。

核心功能與特性

1. 簡潔高效的架構設計

完全基於 Qwen2.5 構建，無需額外的生成模型（如流匹配模型）
直接從 LLM 預測的代碼重構音訊，簡化了處理流程
提高了效率並降低了系統複雜性

2. 零樣本語音克隆

支持零樣本語音克隆技術，無需特定訓練數據即可複製說話者的聲音
非常適合跨語言和代碼切換場景
能夠在不同語言和聲音之間無縫切換

3. 雙語支持能力

支持中文和英文語音合成
具備跨語言零樣本語音克隆能力
在多語言環境下保持高自然度和準確性

4. 可控語音生成

支持通過調整參數創建虛擬說話者
可控制性別、音調、語速等語音特徵
提供粗粒度屬性控制和細粒度參數調整

5. 先進的技術架構

BiCodec技術：單流語音編解碼器，將語音分解為兩種互補的令牌類型
- 低比特率語義令牌：用於語言內容
- 固定長度全局令牌：用於說話者特定屬性
鏈式思維(CoT)生成方法：結合解耦表示實現精確控制

技術規格

系統要求

作業系統：Linux（主要支持），Windows（參考安裝指南）
Python版本：3.12+
深度學習框架：PyTorch 2.5+
許可證：Apache 2.0

模型資訊

模型名稱：Spark-TTS-0.5B
託管平台：Hugging Face
支持平台：支持 Nvidia Triton 推理服務

安裝和使用

基本安裝

# 克隆倉庫
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# 創建Conda環境
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

模型下載

# 通過Python下載
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

使用方式

命令行介面：支持直接命令行推理
Web UI介面：提供圖形化介面，支持語音克隆和語音創建
API介面：支持程序化調用

性能表現

推理性能

在單個 L20 GPU 上進行基準測試
測試數據：26對不同的提示音訊/目標文本（總計169秒音訊）
支持高併發處理
提供實時因子(RTF)性能指標

語音質量

高質量的零樣本語音克隆效果
支持多種知名人物和角色的語音復現
在中英雙語環境下保持優異表現

應用場景

學術研究

語音合成技術研究
語言學研究
人工智慧和機器學習研究

實際應用

個性化語音合成
輔助技術開發
多媒體內容製作
跨語言交流工具

技術優勢

創新架構：基於單流解耦語音令牌的新穎設計
高效實現：直接從LLM輸出重構音訊，避免複雜的中間步驟
靈活控制：支持多層次的語音特徵控制
跨語言能力：優秀的多語言和跨語言性能
零樣本學習：無需額外訓練即可適應新的說話者

倫理和使用規範

項目明確規定了使用準則：

僅用於學術研究、教育目的和合法應用
禁止用於未授權的語音克隆、冒充、欺詐等非法活動
用戶需遵守當地法律法規和道德標準
開發者不承擔濫用責任

總結

Spark-TTS 是一個技術先進、功能強大的文本轉語音系統，代表了當前 TTS 技術的前沿水平。通過創新的架構設計和先進的深度學習技術，它在保持高效性的同時提供了卓越的語音質量和靈活的控制能力。該項目不僅適合學術研究，也具備實際應用的潛力，是語音合成領域的重要貢獻。