PaddlePaddle/PaddleSpeech View GitHub Homepage for Latest Official Releases

PaddleSpeech: Ein benutzerfreundliches Sprach-Toolkit mit selbstüberwachten Lernmodellen, modernstem/Streaming-ASR mit Interpunktion, Streaming-TTS mit Text-Frontend, Sprecherverifikationssystem, End-to-End-Sprachübersetzung und Schlüsselworterkennung. Ausgezeichnet mit dem NAACL2022 Best Demo Award.

Apache-2.0PythonPaddleSpeechPaddlePaddle 12.3k Last Updated: September 28, 2025

PaddleSpeech Projekt - Detaillierte Beschreibung

Projektübersicht

PaddleSpeech ist ein Open-Source-Sprachwerkzeugkasten, der auf der Baidu PaddlePaddle-Plattform basiert und sich auf verschiedene wichtige Sprach- und Audioaufgaben konzentriert. Das Projekt wurde mit dem NAACL2022 Best Demo Award für seine neuesten und einflussreichsten Modelldesigns ausgezeichnet.

Kernfunktionen

🚀 Einfache Bedienung

Niedrige Installationshürde: Bietet einfache Installationsmethoden
Befehlszeilentools: Unterstützt CLI, Server und Streaming-Server für einen schnellen Einstieg
Vielfältige Schnittstellen: Unterstützt die Verwendung über die Befehlszeile und die Python-API

🏆 Spitzentechnologie

Orientierung an neuesten Technologien: Bietet Hochgeschwindigkeits-, ultraleichte Modelle und Spitzentechnologien
Streaming-System: Bietet produktionsreife Streaming-ASR- und Streaming-TTS-Systeme
Selbstüberwachtes Lernen: Integriert selbstüberwachte Lernmodelle

💯 Chinesisches Sprach-Frontend

Regelbasierte Verarbeitung: Umfasst Textnormalisierung und Graphem-zu-Phonem-Konvertierung (G2P)
Mehrdeutigkeitsverarbeitung: Unterstützt die Verarbeitung von Polyphonen und Tonänderungen
Linguistische Regeln: Verwendet benutzerdefinierte linguistische Regeln zur Anpassung an den chinesischen Kontext

Hauptfunktionsmodule

1. Spracherkennung (ASR)

Unterstützte Modelle: DeepSpeech2, Transformer, Conformer, U2 usw.
Mehrsprachige Unterstützung: Chinesisch, Englisch, Chinesisch-Englisch-Gemischt
Echtzeiterkennung: Unterstützt Streaming-Spracherkennung
Punktierungsrestauration: Automatisches Hinzufügen von Satzzeichen

2. Sprachsynthese (TTS)

Akustische Modelle: Tacotron2, FastSpeech2, SpeedySpeech, VITS usw.
Vocoder: WaveFlow, PWGAN, HiFiGAN, Multi Band MelGAN usw.
Mehrsprachige Unterstützung: Chinesisch, Englisch, Chinesisch-Englisch-Gemischt, Kantonesisch
Sprachklonierung: Unterstützt Sprachklonierung und Feinabstimmung

3. Sprecherverifikation (VPR)

Sprechererkennung: Basierend auf dem ECAPA-TDNN-Modell
Stimmabdruckextraktion: Industrielle Stimmabdruck-Feature-Extraktion
Sprechertrennung: Unterstützt Sprechertrennungsaufgaben

4. Sprachübersetzung (ST)

End-to-End-Übersetzung: Englisch-zu-Chinesisch-Sprachübersetzung
Multimodales Vortraining: Kombination von akustischen und Textmerkmalen

5. Audioklassifizierung (CLS)

Offene Domänenklassifizierung: Basierend auf dem AudioSet-Datensatz mit 527 Audioklassen
PANN-Modell: Verwendung von vortrainierten neuronalen Audio-Netzwerken

6. Keyword-Spotting (KWS)

Wake-Word-Erkennung: Unterstützt benutzerdefinierte Wake-Words
Leichtgewichtiges Modell: Geeignet für die Bereitstellung auf mobilen Geräten

Technische Architektur

Modellunterstützung

Selbstüberwachtes Lernen: Wav2vec2.0, HuBERT, WavLM usw.
Aufmerksamkeitsmechanismus: Transformer-, Conformer-Architektur
End-to-End-Training: U2, U2++ und andere einheitliche Modelle
Adversarielles Training: VITS, StarGAN und andere generative Modelle

Datensatzunterstützung

ASR-Datensätze: Aishell, LibriSpeech, CommonVoice usw.
TTS-Datensätze: LJSpeech, CSMSC, VCTK usw.
Mehrsprachige Daten: Unterstützt chinesisch-englische gemischte Datensätze

Installation und Verwendung

Systemanforderungen

Betriebssystem: Linux (empfohlen), Windows, Mac OSX
Python-Version: ≥ 3.8
Compiler: gcc ≥ 4.8.5
Abhängigkeits-Framework: PaddlePaddle

Installationsmethoden

1. pip-Installation

pip install paddlespeech

2. Quellcode-Installation (empfohlen)

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

Schnelle Erfahrung

Spracherkennungsbeispiel

# Befehlszeilenmethode
paddlespeech asr --lang zh --input zh.wav

# Python-API-Methode
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="zh.wav")

Sprachsynthesebeispiel

# Befehlszeilenmethode
paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！" --output output.wav

# Python-API-Methode
from paddlespeech.cli.tts.infer import TTSExecutor
tts = TTSExecutor()
tts(text="今天天气十分不错。", output="output.wav")

Serverbereitstellung

Sprachserver

PaddleSpeech bietet eine vollständige Serverlösung:

Server starten

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

Client-Aufruf

# ASR-Dienst
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# TTS-Dienst
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。"

Streaming-Dienst

Unterstützt Echtzeit-Streaming-Spracherkennung und -Sprachsynthese:

# Streaming-ASR
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# Streaming-TTS
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --input "您好，欢迎使用百度飞桨语音合成服务。"

Anwendungsfälle

Industrielle Anwendungen

Intelligenter Kundenservice: Spracherkennung + Sprachsynthese
Sprachassistent: Wake-Word-Erkennung + Dialogsystem
Content-Erstellung: Sprachklonierung + Mehrsprachige Synthese
Barrierefreie Dienste: Sprache-zu-Text + Text-zu-Sprache

Akademische Forschung

Multimodales Vortraining: ERNIE-SAT und andere Modelle
Sprachübersetzung: End-to-End-Englisch-zu-Chinesisch
Sprechererkennung: Stimmabdruckerkennung und -verifikation
Audioanalyse: Audioklassifizierung und Szenenerkennung

Technische Vorteile

1. Modellleistung

SOTA-Effekt: Mehrere Aufgaben erreichen branchenführende Ergebnisse
Leichtgewichtige Bereitstellung: Unterstützt mobile und Edge-Geräte
Echtzeitverarbeitung: Erfüllt Echtzeit-Interaktionsanforderungen

2. Benutzerfreundlichkeit

Ein-Klick-Bereitstellung: Vereinfachte Installations- und Konfigurationsprozesse
Umfangreiche Dokumentation: Vollständige Bedienungsanleitung und Beispiele
Community-Unterstützung: Aktive Entwickler-Community

3. Erweiterbarkeit

Modulares Design: Unterstützt benutzerdefinierte Modelle und Aufgaben
Mehrsprachige Unterstützung: Kontinuierliche Erweiterung der Sprachabdeckung
Plattformübergreifende Bereitstellung: Unterstützt verschiedene Bereitstellungsumgebungen

Community und Ökosystem

Open-Source-Community

GitHub Stars: Über 10k Sterne
Mitwirkende: Entwickler aus der ganzen Welt
Community-Projekte: Auf PaddleSpeech basierende Ableitungsprojekte

Zusammenfassung

PaddleSpeech ist ein umfassender und einfach zu bedienender Sprachwerkzeugkasten, der Spracherkennung, Sprachsynthese, Sprecherverifikation, Sprachübersetzung und viele andere Kernaufgaben abdeckt. Durch modulares Design und umfangreiche vortrainierte Modelle bietet es Entwicklern und Forschern leistungsstarke Sprach-KI-Lösungen. Ob akademische Forschung oder industrielle Anwendung, PaddleSpeech bietet hochwertige technische Unterstützung und vollständige Lösungen.