Home
Login
WhisperSpeech/WhisperSpeech

Ein Open-Source-Text-to-Speech-System, das durch Reverse Engineering von Whisper entwickelt wurde

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08
https://github.com/WhisperSpeech/WhisperSpeech

WhisperSpeech Projekt – Detaillierte Beschreibung

Überblick

WhisperSpeech ist ein Open-Source-Text-zu-Sprache (TTS)-System, das durch Reverse Engineering von OpenAI Whisper aufgebaut wurde. Die Vision des Projekts ist es, das "Stable Diffusion" im Bereich der Sprachsynthese zu werden – sowohl leistungsstark als auch einfach anpassbar.

Ursprünglich als spear-tts-pytorch bekannt, hat sich das Projekt zu einer ausgereiften, mehrsprachigen Sprachsyntheselösung entwickelt. WhisperSpeech konzentriert sich auf die Verwendung von Sprachaufnahmedaten mit konformer Lizenzierung. Der gesamte Code ist Open Source, um die Sicherheit für kommerzielle Anwendungen zu gewährleisten.

Kernfunktionen und Eigenschaften

🎯 Hauptmerkmale

  • Open Source und kommerziell sicher: Verwendet Apache-2.0/MIT-Lizenz, der gesamte Code ist Open Source, verwendet ausschließlich Sprachdaten mit konformer Lizenzierung.
  • Mehrsprachige Unterstützung: Unterstützt derzeit Englisch und Polnisch, die Erweiterung auf weitere Sprachen ist geplant.
  • Sprachklonierung: Unterstützt Sprachklonierungsfunktionen basierend auf Referenz-Audiodateien.
  • Mehrsprachige Mischung: Ermöglicht das Mischen mehrerer Sprachen in einem einzigen Satz.
  • Hochleistungsoptimierung: Erreicht eine Inferenzleistung von mehr als dem 12-fachen der Echtzeitgeschwindigkeit auf einer Consumer-Grafikkarte vom Typ 4090.

🔧 Technische Architektur

Die Architektur von WhisperSpeech ähnelt Google AudioLM und SPEAR TTS sowie Meta MusicGen und basiert auf leistungsstarken Open-Source-Modellen:

  • Whisper (OpenAI): Wird verwendet, um semantische Token zu generieren und Transkriptionen durchzuführen.
  • EnCodec (Meta): Wird für die akustische Modellierung verwendet.
  • Vocos (Charactr Inc): Dient als hochwertiger Vocoder.

📊 Modellkomponenten

  1. Generierung semantischer Token: Nutzt OpenAI Whisper Encoder-Blöcke, um Einbettungen zu generieren, die dann quantisiert werden, um semantische Token zu erhalten.
  2. Akustische Modellierung: Verwendet EnCodec, um Audiosignalformen zu modellieren und eine angemessene Qualität bei 1,5 kbps zu liefern.
  3. Hochwertiger Vocoder: Wandelt EnCodec-Token mit Vocos in hochwertige Audiosignale um.

🌍 Datensätze und Training

  • Englische Daten: Basiert auf dem LibreLight-Datensatz.
  • Mehrsprachige Erweiterung: Ein kleines Modell wurde erfolgreich auf einem Englisch+Polnisch+Französisch-Datensatz trainiert.
  • Sprachklonierung: Unterstützt sprachübergreifende Sprachklonierung, auch wenn semantische Token nur in einigen Sprachen trainiert wurden.

Neueste Fortschritte

Leistungsoptimierung

  • Integration von torch.compile
  • Hinzufügen von kv-caching
  • Optimierung der Netzwerkebenenstruktur
  • Erreichen einer mehr als 12-fachen Echtzeit-Inferenzgeschwindigkeit auf einer 4090-Grafikkarte

Mehrsprachige Fähigkeiten

  • Erfolgreiche Implementierung der gemischten Sprachsynthese von Englisch und Polnisch
  • Unterstützung für nahtlose mehrsprachige Umschaltung in einem einzigen Satz
  • Sprachübergreifende Sprachklonierungsfunktion

Modellaktualisierungen

  • Veröffentlichung eines schnelleren SD S2A-Modells, das die Geschwindigkeit bei gleichbleibend hoher Qualität erhöht.
  • Verbesserte Sprachklonierungsfunktion
  • Optimierte Abhängigkeiten, Installationszeit auf unter 30 Sekunden reduziert

Verwendung

Schnellstart

  • Google Colab: Bietet sofort einsatzbereite Colab-Notebooks, Installation in 30 Sekunden.
  • Lokale Ausführung: Unterstützt lokale Notebook-Umgebungen.
  • HuggingFace: Vorab trainierte Modelle und konvertierte Datensätze sind auf HuggingFace verfügbar.

Modell-Download

Technische Grundlagen

WhisperSpeech verwendet einen innovativen "Reverse Engineering"-Ansatz:

  1. Verwendung der Spracherkennungsfähigkeiten von Whisper, um ein Sprachsynthesesystem rückwärts zu konstruieren.
  2. Überbrückung von Text und Sprache durch semantische Token.
  3. Nutzung bestehender, leistungsstarker Open-Source-Modelle, um das Rad nicht neu erfinden zu müssen.
  4. Konzentration auf konforme Daten und kommerzielle Sicherheit.

Zusammenfassung

WhisperSpeech stellt einen wichtigen Durchbruch in der Open-Source-Sprachsynthesetechnologie dar. Es realisiert nicht nur eine qualitativ hochwertige, mehrsprachige Sprachsynthese, sondern etabliert vor allem ein vollständig Open-Source- und kommerziell sicheres Ökosystem. Durch den innovativen Ansatz des Reverse Engineering von Whisper bietet das Projekt eine leistungsstarke und flexible Lösung für den Bereich der Sprachsynthese.