Home
Login

Ein leichtgewichtiges Text-zu-Sprache-Modell, das durch natürliche Sprachbeschreibungen hochwertige und natürliche Sprache erzeugt.

Apache-2.0Python 5.3khuggingfaceparler-tts Last Updated: 2024-12-10

Parler TTS Projekt – Detaillierte Beschreibung

Projektübersicht

Parler-TTS ist ein leichtgewichtiges Text-zu-Sprache (TTS)-Modell, das qualitativ hochwertige, natürliche Sprache erzeugt und die Steuerung des Sprecherstils (Geschlecht, Tonhöhe, Sprechweise usw.) ermöglicht. Das Projekt ist eine Open-Source-Implementierung der Forschungsarbeit "Natural language guidance of high-fidelity text-to-speech with synthetic annotations" von Stability AI und der Universität Edinburgh.

Projektmerkmale

  • Vollständig Open Source: Im Gegensatz zu anderen TTS-Modellen ist Parler-TTS eine vollständig Open-Source-Version.
  • Offener Datensatz: Alle Datensätze, Vorverarbeitung, Trainingscode und Gewichte werden unter einer großzügigen Lizenz öffentlich zugänglich gemacht.
  • Natürliche Sprachsteuerung: Sprachmerkmale können durch einfache Textprompts gesteuert werden.
  • Verschiedene Modellgrößen: Es werden Modellversionen mit unterschiedlicher Parameteranzahl angeboten.

Verfügbare Modellversionen

1. Parler-TTS Mini v1

  • Parameteranzahl: 880M
  • Trainingsdaten: 45.000 Stunden Hörbuchdaten
  • Merkmale: Leichtgewichtig, geeignet für schnelle Inferenz

2. Parler-TTS Large v1

  • Parameteranzahl: 2.2B Parameter
  • Trainingsdaten: 45.000 Stunden Audiodaten
  • Merkmale: Höhere Qualität der Spracherzeugung

3. Parler-TTS Mini Expresso

  • Besondere Funktionen: Bietet überlegene Emotionskontrolle (Freude, Verwirrung, Lachen, Trauer) und konsistente Stimmen (Jerry, Thomas, Elisabeth, Talia)

Installationsanleitung

Grundlegende Installation

pip install git+https://github.com/huggingface/parler-tts.git

Apple Silicon Benutzer

pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

Verwendung

Grundlegendes Anwendungsbeispiel

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

Verwendung vordefinierter Sprecher

Das Modell unterstützt 34 vordefinierte Sprecher, darunter: Laura, Gary, Jon, Lea, Karen, Rick, Brenda, David, Eileen, Jordan, Mike, Yann, Joy, James, Eric, Lauren, Rose, Will, Jason, Aaron, Naomie, Alisa, Patrick, Jerry, Tina, Jenna, Bill, Tom, Carol, Barbara, Rebecca, Anna, Bruce, Emily.

prompt = "Hey, how are you doing today?"
description = "Jon's voice is monotone yet slightly fast in delivery, with a very close recording that almost has no background noise."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

Tipps zur Verwendung

  • Verwenden Sie "very clear audio", um Audio in höchster Qualität zu erzeugen.
  • Verwenden Sie "very noisy audio", um ein hohes Maß an Hintergrundgeräuschen hinzuzufügen.
  • Sie können Satzzeichen verwenden, um die Prosodie der Sprache zu steuern, z. B. Kommas, um kurze Pausen in der Sprache einzufügen.
  • Die übrigen Sprachmerkmale (Geschlecht, Sprechgeschwindigkeit, Tonhöhe und Hall) können direkt über Prompts gesteuert werden.

Training und Feinabstimmung

Schnelles Training

accelerate launch ./training/run_parler_tts_training.py ./helpers/training_configs/starting_point_v1.json

Unterstützung für Feinabstimmung

Das Projekt bietet eine vollständige Anleitung zum Training und zur Feinabstimmung, einschließlich:

  • Architekturbeschreibung
  • Erste Schritte
  • Detaillierte Trainingsanleitung
  • Beispiel für die Feinabstimmung eines Datensatzes mit einem einzelnen Sprecher

Technische Optimierung

Das Projekt enthält verschiedene Leistungsoptimierungen:

  • SDPA- und Flash Attention 2-Kompatibilität
  • Modellkompilierungsfähigkeit
  • Unterstützung für Streaming-Generierung
  • Statische Cache-Optimierung

Projektstruktur

  • Inferenzcode: Kernfunktionen für die TTS-Inferenz
  • Trainingscode: Vollständige Trainings- und Feinabstimmungsprozesse
  • Data-Speech-Integration: Zusammenarbeit mit Datensatz-Annotation-Bibliotheken
  • Optimierungstools: Verschiedene Optionen zur Optimierung der Inferenzgeschwindigkeit

Anwendungsbereiche

  • Erstellung von Hörbüchern
  • Sprachassistenten
  • Erstellung von Bildungsinhalten
  • Unterstützende Technologien für Barrierefreiheit
  • Erstellung von Multimedia-Inhalten

Open-Source-Lizenz und Zitation

Das Projekt verwendet eine großzügige Open-Source-Lizenz, die Community-Beiträge und kommerzielle Nutzung fördert. Wenn Sie das Projekt verwenden, wird empfohlen, es wie folgt zu zitieren:

@misc{lacombe-etal-2024-parler-tts,
author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
title = {Parler-TTS},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/huggingface/parler-tts}}
}

Community-Beiträge

Das Projekt begrüßt Community-Beiträge, insbesondere in den folgenden Bereichen:

  • Erweiterung und Diversifizierung des Datensatzes
  • Optimierung der Trainingsmethoden
  • Mehrsprachige Unterstützung
  • Leistungsoptimierung
  • Verbesserung der Bewertungsmetriken

Parler TTS stellt einen wichtigen Fortschritt in der Open-Source-TTS-Technologie dar und bietet Forschern und Entwicklern eine leistungsstarke und flexible Text-zu-Sprache-Lösung.

Star History Chart