huggingface/parler-ttsPlease refer to the latest official releases for information GitHub Homepage

Ein leichtgewichtiges Text-zu-Sprache-Modell, das durch natürliche Sprachbeschreibungen hochwertige und natürliche Sprache erzeugt.

Apache-2.0Python 5.3khuggingfaceparler-tts Last Updated: 2024-12-10

Parler TTS Projekt – Detaillierte Beschreibung

Projektübersicht

Parler-TTS ist ein leichtgewichtiges Text-zu-Sprache (TTS)-Modell, das qualitativ hochwertige, natürliche Sprache erzeugt und die Steuerung des Sprecherstils (Geschlecht, Tonhöhe, Sprechweise usw.) ermöglicht. Das Projekt ist eine Open-Source-Implementierung der Forschungsarbeit "Natural language guidance of high-fidelity text-to-speech with synthetic annotations" von Stability AI und der Universität Edinburgh.

Projektmerkmale

Vollständig Open Source: Im Gegensatz zu anderen TTS-Modellen ist Parler-TTS eine vollständig Open-Source-Version.
Offener Datensatz: Alle Datensätze, Vorverarbeitung, Trainingscode und Gewichte werden unter einer großzügigen Lizenz öffentlich zugänglich gemacht.
Natürliche Sprachsteuerung: Sprachmerkmale können durch einfache Textprompts gesteuert werden.
Verschiedene Modellgrößen: Es werden Modellversionen mit unterschiedlicher Parameteranzahl angeboten.

Verfügbare Modellversionen

1. Parler-TTS Mini v1

Parameteranzahl: 880M
Trainingsdaten: 45.000 Stunden Hörbuchdaten
Merkmale: Leichtgewichtig, geeignet für schnelle Inferenz

2. Parler-TTS Large v1

Parameteranzahl: 2.2B Parameter
Trainingsdaten: 45.000 Stunden Audiodaten
Merkmale: Höhere Qualität der Spracherzeugung

3. Parler-TTS Mini Expresso

Besondere Funktionen: Bietet überlegene Emotionskontrolle (Freude, Verwirrung, Lachen, Trauer) und konsistente Stimmen (Jerry, Thomas, Elisabeth, Talia)

Installationsanleitung

Grundlegende Installation

pip install git+https://github.com/huggingface/parler-tts.git

Apple Silicon Benutzer

pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

Verwendung

Grundlegendes Anwendungsbeispiel

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

Verwendung vordefinierter Sprecher

Das Modell unterstützt 34 vordefinierte Sprecher, darunter: Laura, Gary, Jon, Lea, Karen, Rick, Brenda, David, Eileen, Jordan, Mike, Yann, Joy, James, Eric, Lauren, Rose, Will, Jason, Aaron, Naomie, Alisa, Patrick, Jerry, Tina, Jenna, Bill, Tom, Carol, Barbara, Rebecca, Anna, Bruce, Emily.

prompt = "Hey, how are you doing today?"
description = "Jon's voice is monotone yet slightly fast in delivery, with a very close recording that almost has no background noise."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

Tipps zur Verwendung

Verwenden Sie "very clear audio", um Audio in höchster Qualität zu erzeugen.
Verwenden Sie "very noisy audio", um ein hohes Maß an Hintergrundgeräuschen hinzuzufügen.
Sie können Satzzeichen verwenden, um die Prosodie der Sprache zu steuern, z. B. Kommas, um kurze Pausen in der Sprache einzufügen.
Die übrigen Sprachmerkmale (Geschlecht, Sprechgeschwindigkeit, Tonhöhe und Hall) können direkt über Prompts gesteuert werden.

Training und Feinabstimmung

Schnelles Training

accelerate launch ./training/run_parler_tts_training.py ./helpers/training_configs/starting_point_v1.json

Unterstützung für Feinabstimmung

Das Projekt bietet eine vollständige Anleitung zum Training und zur Feinabstimmung, einschließlich:

Architekturbeschreibung
Erste Schritte
Detaillierte Trainingsanleitung
Beispiel für die Feinabstimmung eines Datensatzes mit einem einzelnen Sprecher

Technische Optimierung

Das Projekt enthält verschiedene Leistungsoptimierungen:

SDPA- und Flash Attention 2-Kompatibilität
Modellkompilierungsfähigkeit
Unterstützung für Streaming-Generierung
Statische Cache-Optimierung

Projektstruktur

Inferenzcode: Kernfunktionen für die TTS-Inferenz
Trainingscode: Vollständige Trainings- und Feinabstimmungsprozesse
Data-Speech-Integration: Zusammenarbeit mit Datensatz-Annotation-Bibliotheken
Optimierungstools: Verschiedene Optionen zur Optimierung der Inferenzgeschwindigkeit

Anwendungsbereiche

Erstellung von Hörbüchern
Sprachassistenten
Erstellung von Bildungsinhalten
Unterstützende Technologien für Barrierefreiheit
Erstellung von Multimedia-Inhalten

Open-Source-Lizenz und Zitation

Das Projekt verwendet eine großzügige Open-Source-Lizenz, die Community-Beiträge und kommerzielle Nutzung fördert. Wenn Sie das Projekt verwenden, wird empfohlen, es wie folgt zu zitieren:

@misc{lacombe-etal-2024-parler-tts,
author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
title = {Parler-TTS},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/huggingface/parler-tts}}
}

Community-Beiträge

Das Projekt begrüßt Community-Beiträge, insbesondere in den folgenden Bereichen:

Erweiterung und Diversifizierung des Datensatzes
Optimierung der Trainingsmethoden
Mehrsprachige Unterstützung
Leistungsoptimierung
Verbesserung der Bewertungsmetriken

Parler TTS stellt einen wichtigen Fortschritt in der Open-Source-TTS-Technologie dar und bietet Forschern und Entwicklern eine leistungsstarke und flexible Text-zu-Sprache-Lösung.