SparkAudio/Spark-TTS

Spark-TTS：大規模言語モデルに基づく効率的なテキスト読み上げシステムで、ゼロショット音声クローンと制御可能な音声生成をサポート

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09

Spark-TTS プロジェクト詳細紹介

プロジェクト概要

Spark-TTS は、SparkAudio チームによって開発された、大規模言語モデル (LLM) をベースとした先進的なテキスト音声変換システムです。このシステムは、革新的なシングルストリーム分離音声トークン技術を採用し、高品質で自然な音声合成効果を生み出すことができます。プロジェクトは Qwen2.5 大規模言語モデルをベースに構築されており、研究および本番環境向けに設計され、高効率、柔軟性、強力な特徴を備えています。

主要機能と特性

1. 簡潔で効率的なアーキテクチャ設計

Qwen2.5 を完全にベースにしており、追加の生成モデル (フローマッチングモデルなど) は不要
LLM から直接予測されたコードを再構築してオーディオを生成し、処理フローを簡素化
効率を向上させ、システムの複雑さを軽減

2. ゼロショット音声クローン

特定のトレーニングデータなしで話者の声を複製できる、ゼロショット音声クローン技術をサポート
クロスランゲージおよびコードスイッチングのシナリオに最適
異なる言語と音声の間でシームレスに切り替え可能

3. バイリンガルサポート機能

中国語と英語の音声合成をサポート
クロスランゲージゼロショット音声クローン機能を搭載
多言語環境下でも高い自然さと正確さを維持

4. 制御可能な音声生成

パラメータを調整して仮想話者を作成可能
性別、音調、話速などの音声特徴を制御可能
粗粒度属性制御と細粒度パラメータ調整を提供

5. 先進的な技術アーキテクチャ

BiCodec技術: シングルストリーム音声コーデック。音声を2種類の補完的なトークンタイプに分解
- 低ビットレートセマンティックトークン: 言語コンテンツ用
- 固定長グローバルトークン: 話者固有の属性用
Chain-of-Thought (CoT) 生成方法: 分離表現と組み合わせることで正確な制御を実現

技術仕様

システム要件

オペレーティングシステム: Linux (主にサポート)、Windows (インストールガイドを参照)
Pythonバージョン: 3.12+
深層学習フレームワーク: PyTorch 2.5+
ライセンス: Apache 2.0

モデル情報

モデル名: Spark-TTS-0.5B
ホスティングプラットフォーム: Hugging Face
サポートプラットフォーム: Nvidia Triton 推論サービスをサポート

インストールと使用

基本インストール

# リポジトリをクローン
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# Conda環境を作成
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

モデルダウンロード

# Pythonでダウンロード
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

使用方法

コマンドラインインターフェース: コマンドラインからの直接推論をサポート
Web UIインターフェース: グラフィカルインターフェースを提供し、音声クローンと音声作成をサポート
APIインターフェース: プログラムによる呼び出しをサポート

性能表現

推論性能

単一の L20 GPU でベンチマークテストを実施
テストデータ: 26組の異なるプロンプトオーディオ/目標テキスト (合計169秒のオーディオ)
高並行処理をサポート
リアルタイムファクター (RTF) 性能指標を提供

音声品質

高品質なゼロショット音声クローン効果
多くの著名人やキャラクターの音声再現をサポート
中国語と英語のバイリンガル環境下で優れたパフォーマンスを維持

応用シーン

学術研究

音声合成技術研究
言語学研究
人工知能と機械学習研究

実際の応用

個性的な音声合成
補助技術開発
マルチメディアコンテンツ制作
クロスランゲージコミュニケーションツール

技術的優位性

革新的なアーキテクチャ: シングルストリーム分離音声トークンに基づく斬新な設計
効率的な実現: LLM から直接オーディオを再構築し、複雑な中間ステップを回避
柔軟な制御: 多層的な音声特徴制御をサポート
クロスランゲージ能力: 優れた多言語およびクロスランゲージ性能
ゼロショット学習: 追加のトレーニングなしで新しい話者に適応可能

倫理と使用規範

プロジェクトは使用に関するガイドラインを明確に規定しています。

学術研究、教育目的、および合法的なアプリケーションのみに使用
未承認の音声クローン、なりすまし、詐欺などの違法行為への使用を禁止
ユーザーは現地の法律、規制、および倫理基準を遵守する必要がある
開発者は不正使用に対する責任を負わない

まとめ

Spark-TTS は、技術的に高度で、機能が強力なテキスト音声変換システムであり、現在の TTS 技術の最前線を表しています。革新的なアーキテクチャ設計と高度な深層学習技術により、効率性を維持しながら、卓越した音声品質と柔軟な制御能力を提供します。このプロジェクトは学術研究に適しているだけでなく、実際のアプリケーションの可能性も秘めており、音声合成分野における重要な貢献です。