Home
Login
SparkAudio/Spark-TTS

Spark-TTS:基於大語言模型的高效文本轉語音系統,支援零樣本語音克隆和可控語音生成

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09
https://github.com/SparkAudio/Spark-TTS

Spark-TTS 項目詳細介紹

項目概述

Spark-TTS 是一個基於大語言模型(LLM)的先進文本轉語音系統,由 SparkAudio 團隊開發。該系統採用創新的單流解耦語音令牌技術,能夠生成高品質、自然的語音合成效果。項目基於 Qwen2.5 大語言模型構建,專為研究和生產環境設計,具有高效、靈活、強大的特點。

核心功能與特性

1. 簡潔高效的架構設計

  • 完全基於 Qwen2.5 構建,無需額外的生成模型(如流匹配模型)
  • 直接從 LLM 預測的代碼重構音訊,簡化了處理流程
  • 提高了效率並降低了系統複雜性

2. 零樣本語音克隆

  • 支持零樣本語音克隆技術,無需特定訓練數據即可複製說話者的聲音
  • 非常適合跨語言和代碼切換場景
  • 能夠在不同語言和聲音之間無縫切換

3. 雙語支持能力

  • 支持中文和英文語音合成
  • 具備跨語言零樣本語音克隆能力
  • 在多語言環境下保持高自然度和準確性

4. 可控語音生成

  • 支持通過調整參數創建虛擬說話者
  • 可控制性別、音調、語速等語音特徵
  • 提供粗粒度屬性控制和細粒度參數調整

5. 先進的技術架構

  • BiCodec技術:單流語音編解碼器,將語音分解為兩種互補的令牌類型
    • 低比特率語義令牌:用於語言內容
    • 固定長度全局令牌:用於說話者特定屬性
  • 鏈式思維(CoT)生成方法:結合解耦表示實現精確控制

技術規格

系統要求

  • 作業系統:Linux(主要支持),Windows(參考安裝指南)
  • Python版本:3.12+
  • 深度學習框架:PyTorch 2.5+
  • 許可證:Apache 2.0

模型資訊

  • 模型名稱:Spark-TTS-0.5B
  • 託管平台:Hugging Face
  • 支持平台:支持 Nvidia Triton 推理服務

安裝和使用

基本安裝

# 克隆倉庫
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# 創建Conda環境
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

模型下載

# 通過Python下載
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

使用方式

  1. 命令行介面:支持直接命令行推理
  2. Web UI介面:提供圖形化介面,支持語音克隆和語音創建
  3. API介面:支持程序化調用

性能表現

推理性能

  • 在單個 L20 GPU 上進行基準測試
  • 測試數據:26對不同的提示音訊/目標文本(總計169秒音訊)
  • 支持高併發處理
  • 提供實時因子(RTF)性能指標

語音質量

  • 高質量的零樣本語音克隆效果
  • 支持多種知名人物和角色的語音復現
  • 在中英雙語環境下保持優異表現

應用場景

學術研究

  • 語音合成技術研究
  • 語言學研究
  • 人工智慧和機器學習研究

實際應用

  • 個性化語音合成
  • 輔助技術開發
  • 多媒體內容製作
  • 跨語言交流工具

技術優勢

  1. 創新架構:基於單流解耦語音令牌的新穎設計
  2. 高效實現:直接從LLM輸出重構音訊,避免複雜的中間步驟
  3. 靈活控制:支持多層次的語音特徵控制
  4. 跨語言能力:優秀的多語言和跨語言性能
  5. 零樣本學習:無需額外訓練即可適應新的說話者

倫理和使用規範

項目明確規定了使用準則:

  • 僅用於學術研究、教育目的和合法應用
  • 禁止用於未授權的語音克隆、冒充、欺詐等非法活動
  • 用戶需遵守當地法律法規和道德標準
  • 開發者不承擔濫用責任

總結

Spark-TTS 是一個技術先進、功能強大的文本轉語音系統,代表了當前 TTS 技術的前沿水平。通過創新的架構設計和先進的深度學習技術,它在保持高效性的同時提供了卓越的語音質量和靈活的控制能力。該項目不僅適合學術研究,也具備實際應用的潛力,是語音合成領域的重要貢獻。