Home
Login
SparkAudio/Spark-TTS

Spark-TTS: Ein effizientes Text-to-Speech-System basierend auf großen Sprachmodellen, das Zero-Shot-Sprachklonierung und kontrollierte Sprachgenerierung unterstützt.

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09
https://github.com/SparkAudio/Spark-TTS

Spark-TTS Projektbeschreibung

Projektübersicht

Spark-TTS ist ein fortschrittliches Text-zu-Sprache-System (TTS) basierend auf großen Sprachmodellen (LLM), das vom SparkAudio-Team entwickelt wurde. Das System verwendet eine innovative Single-Stream-Entkopplungs-Sprach-Token-Technologie, um qualitativ hochwertige und natürlich klingende Sprachsynthese zu erzeugen. Das Projekt basiert auf dem Qwen2.5 Large Language Model und ist speziell für Forschungs- und Produktionsumgebungen konzipiert. Es zeichnet sich durch Effizienz, Flexibilität und Leistungsfähigkeit aus.

Kernfunktionen und -merkmale

1. Schlankes und effizientes Architekturdesign

  • Vollständig auf Qwen2.5 aufgebaut, ohne zusätzliche Generierungsmodelle (wie z. B. Flow-Matching-Modelle)
  • Direkte Rekonstruktion von Audio aus dem vom LLM vorhergesagten Code, was den Verarbeitungsprozess vereinfacht
  • Erhöht die Effizienz und reduziert die Systemkomplexität

2. Zero-Shot-Sprachklonierung

  • Unterstützt Zero-Shot-Sprachklonierungstechnologie, um die Stimme eines Sprechers ohne spezifische Trainingsdaten zu replizieren
  • Ideal für sprachübergreifende und Code-Switching-Szenarien
  • Ermöglicht nahtlose Übergänge zwischen verschiedenen Sprachen und Stimmen

3. Zweisprachige Unterstützung

  • Unterstützt chinesische und englische Sprachsynthese
  • Bietet sprachübergreifende Zero-Shot-Sprachklonierungsfunktionen
  • Behält in mehrsprachigen Umgebungen ein hohes Maß an Natürlichkeit und Genauigkeit bei

4. Kontrollierbare Sprachgenerierung

  • Unterstützt die Erstellung virtueller Sprecher durch Anpassung von Parametern
  • Sprachmerkmale wie Geschlecht, Tonhöhe und Sprechgeschwindigkeit können gesteuert werden
  • Bietet grobkörnige Attributsteuerung und feinkörnige Parametereinstellung

5. Fortschrittliche technische Architektur

  • BiCodec-Technologie: Single-Stream-Sprachcodec, der Sprache in zwei komplementäre Token-Typen zerlegt
    • Semantische Token mit niedriger Bitrate: für Sprachinhalte
    • Globale Token mit fester Länge: für sprecherspezifische Attribute
  • Chain-of-Thought (CoT) Generierungsmethode: Kombiniert entkoppelte Darstellung für präzise Steuerung

Technische Spezifikationen

Systemanforderungen

  • Betriebssystem: Linux (hauptsächlich unterstützt), Windows (siehe Installationsanleitung)
  • Python-Version: 3.12+
  • Deep-Learning-Framework: PyTorch 2.5+
  • Lizenz: Apache 2.0

Modellinformationen

  • Modellname: Spark-TTS-0.5B
  • Hosting-Plattform: Hugging Face
  • Unterstützte Plattform: Unterstützt Nvidia Triton Inference Server

Installation und Verwendung

Grundlegende Installation

# Repository klonen
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# Conda-Umgebung erstellen
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

Modell-Download

# Download über Python
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

Verwendung

  1. Befehlszeilenschnittstelle: Unterstützt direkte Befehlszeileninferenz
  2. Web-UI-Oberfläche: Bietet eine grafische Benutzeroberfläche, die Sprachklonierung und Spracherstellung unterstützt
  3. API-Schnittstelle: Unterstützt programmatische Aufrufe

Performance

Inferenz-Performance

  • Benchmarking auf einer einzelnen L20 GPU
  • Testdaten: 26 verschiedene Prompt-Audio/Zieltext-Paare (insgesamt 169 Sekunden Audio)
  • Unterstützt hochgradig parallele Verarbeitung
  • Bietet Echtzeitfaktor (RTF) Performance-Metriken

Sprachqualität

  • Hochwertige Zero-Shot-Sprachklonierungseffekte
  • Unterstützt die Reproduktion der Stimmen verschiedener bekannter Persönlichkeiten und Charaktere
  • Behält in chinesisch- und englischsprachigen Umgebungen eine hervorragende Leistung bei

Anwendungsbereiche

Akademische Forschung

  • Forschung zur Sprachsynthesetechnologie
  • Sprachwissenschaftliche Forschung
  • Forschung zu künstlicher Intelligenz und maschinellem Lernen

Praktische Anwendungen

  • Personalisierte Sprachsynthese
  • Entwicklung von Hilfstechnologien
  • Erstellung von Multimedia-Inhalten
  • Sprachübergreifende Kommunikationswerkzeuge

Technische Vorteile

  1. Innovative Architektur: Neuartiges Design basierend auf Single-Stream-Entkopplungs-Sprach-Token
  2. Effiziente Implementierung: Direkte Rekonstruktion von Audio aus der LLM-Ausgabe, wodurch komplexe Zwischenschritte vermieden werden
  3. Flexible Steuerung: Unterstützt mehrstufige Steuerung von Sprachmerkmalen
  4. Sprachübergreifende Fähigkeiten: Ausgezeichnete mehrsprachige und sprachübergreifende Leistung
  5. Zero-Shot-Lernen: Keine zusätzliche Schulung erforderlich, um sich an neue Sprecher anzupassen

Ethik und Nutzungsrichtlinien

Das Projekt legt klare Nutzungsrichtlinien fest:

  • Nur für akademische Forschung, Bildungszwecke und legale Anwendungen
  • Verbot der Verwendung für unbefugte Sprachklonierung, Nachahmung, Betrug und andere illegale Aktivitäten
  • Benutzer müssen die lokalen Gesetze und ethischen Standards einhalten
  • Entwickler übernehmen keine Verantwortung für Missbrauch

Zusammenfassung

Spark-TTS ist ein technologisch fortschrittliches und leistungsstarkes Text-zu-Sprache-System, das den aktuellen Stand der TTS-Technologie repräsentiert. Durch innovatives Architekturdesign und fortschrittliche Deep-Learning-Technologien bietet es hervorragende Sprachqualität und flexible Steuerung bei gleichzeitiger Wahrung der Effizienz. Das Projekt eignet sich nicht nur für die akademische Forschung, sondern hat auch das Potenzial für praktische Anwendungen und ist ein wichtiger Beitrag zum Bereich der Sprachsynthese.