fishaudio/fish-speechView GitHub Homepage for Latest Official Releases

SOTA Open-Source Text-to-Speech (TTS) System

Apache-2.0Pythonfish-speechfishaudio 22.6k Last Updated: July 23, 2025

Fish Speech - Open-Source Text-to-Speech System

Projektübersicht

Fish Speech ist ein Open-Source-Text-to-Speech (TTS)-System, das auf den neuesten Technologien basiert und vom FishAudio-Team entwickelt wurde. Das Projekt repräsentiert den aktuellen Stand der Technik (SOTA - State of the Art) in der Sprachsynthese und bietet leistungsstarke Sprachgenerierungs- und Klonfunktionen.

Kernfunktionen

🎯 Zero-Shot und Few-Shot TTS

Generiert hochwertige TTS-Ausgabe mit nur 10-30 Sekunden Sprachprobe
Unterstützt schnelles Sprachklonen ohne lange Trainingszeiten
Bietet einen detaillierten Leitfaden für Best Practices beim Sprachklonen

🌍 Mehrsprachige und sprachübergreifende Unterstützung

Unterstützt mehrere Sprachen: Englisch, Japanisch, Chinesisch usw.
Einfaches Kopieren und Einfügen von mehrsprachigem Text in das Eingabefeld, ohne sich um die Spracherkennung kümmern zu müssen
Leistungsstarke sprachübergreifende Fähigkeiten

🔤 Phonem-Unabhängigkeit

Das Modell verfügt über eine starke Generalisierungsfähigkeit
Keine Abhängigkeit von Phonemen für die TTS-Verarbeitung
Kann Texte in jeder Sprachschrift verarbeiten

📊 Hohe Genauigkeit

Für 5 Minuten englischen Text beträgt die Zeichenfehlerrate (CER) und die Wortfehlerrate (WER) etwa 2%
Branchenführende Genauigkeit

⚡ Schnelle Inferenz

Echtzeitrate von ca. 1:5 auf einem Nvidia RTX 4060 Laptop
Echtzeitrate von ca. 1:15 auf einer Nvidia RTX 4090
Verwendet die fish-tech Beschleunigungstechnologie

🖥️ Benutzerfreundliche Oberfläche

WebUI Inferenz: Einfach zu bedienende Weboberfläche basierend auf Gradio, kompatibel mit Chrome, Firefox, Edge usw.
GUI Inferenz: Bietet eine PyQt6-Grafikoberfläche, die nahtlos mit dem API-Server zusammenarbeitet und Linux, Windows und macOS unterstützt

🚀 Bereitstellungsfreundlich

Einfache Einrichtung eines Inferenzservers
Native Unterstützung für Linux, Windows und macOS
Minimierung des Geschwindigkeitsverlusts

🔄 Vollständig Ende-zu-Ende

Automatische Integration von ASR- und TTS-Teilen
Keine Notwendigkeit, andere Modelle einzufügen
Echte Ende-zu-Ende-Lösung, keine Drei-Phasen-Architektur (ASR+LLM+TTS)

🎨 Erweiterte Funktionen

Klangfarbensteuerung: Die Klangfarbe der Stimme kann mit Referenz-Audio gesteuert werden
Emotionale Ausdruckskraft: Das Modell kann Sprache mit starken Emotionen erzeugen

Technische Architektur

Fish Speech basiert auf Large Language Model (LLM)-Technologie und nutzt fortschrittliche Deep-Learning-Algorithmen, um eine qualitativ hochwertige mehrsprachige Text-to-Speech-Synthese zu realisieren. Das System verwendet eine vollständig Ende-zu-Ende-Architektur, die die Komplexität traditioneller Drei-Phasen-Methoden vermeidet.

Lizenzinformationen

Codebasis: Veröffentlicht unter der Apache License
Modellgewichte: Veröffentlicht unter der CC-BY-NC-SA-4.0 License
Bei Verwendung muss erwähnt werden, dass der Inhalt unter der CC BY-NC-SA 4.0 Lizenz veröffentlicht wurde

Neueste Entwicklungen

Das Projekt wurde zur Marke OpenAudio aufgewertet und hat eine neue Generation fortschrittlicher Text-to-Speech-Modelle auf Basis von Fish-Speech eingeführt, die deutliche Verbesserungen und neue Funktionen aufweisen.

Akademische Zitation

@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}

Zusammenfassung

Fish Speech ist eine leistungsstarke und einfach zu bedienende Open-Source-TTS-Lösung, die sich besonders für Entwickler und Forscher eignet, die hochwertige Sprachsynthese- und Sprachklonfunktionen benötigen. Seine fortschrittliche technische Architektur, die mehrsprachige Unterstützung und die benutzerfreundliche Oberfläche machen es zu einem der besten Open-Source-TTS-Systeme, die derzeit verfügbar sind.