Système de synthèse vocale (TTS) open source SOTA
Fish Speech - Système de synthèse vocale open source
Aperçu du projet
Fish Speech est un système de synthèse vocale (TTS) open source basé sur les dernières technologies, développé par l'équipe FishAudio. Ce projet représente le plus haut niveau actuel de la technologie de synthèse vocale (SOTA - State of the Art), offrant de puissantes fonctionnalités de génération et de clonage de voix.
Caractéristiques principales
🎯 TTS zéro-shot et few-shot
- Générez une sortie TTS de haute qualité avec seulement 10 à 30 secondes d'échantillon vocal.
- Prend en charge le clonage vocal rapide, sans nécessiter un entraînement prolongé.
- Fournit un guide des meilleures pratiques de clonage vocal détaillé.
🌍 Prise en charge multilingue et interlingue
- Prend en charge plusieurs langues : anglais, japonais, chinois, etc.
- Copiez et collez simplement du texte multilingue dans la zone de saisie, sans vous soucier de la reconnaissance de la langue.
- Puissantes capacités interlingues.
🔤 Indépendance phonémique
- Le modèle possède de fortes capacités de généralisation.
- Ne dépend pas des phonèmes pour le traitement TTS.
- Peut traiter du texte dans n'importe quel script linguistique.
📊 Haute précision
- Pour un texte anglais de 5 minutes, le taux d'erreur de caractères (CER) et le taux d'erreur de mots (WER) sont d'environ 2 %.
- Performances de précision de pointe.
⚡ Inférence à haute vitesse
- Taux en temps réel d'environ 1:5 sur un ordinateur portable Nvidia RTX 4060.
- Taux en temps réel d'environ 1:15 sur une Nvidia RTX 4090.
- Utilise la technologie d'accélération fish-tech.
🖥️ Interface conviviale
- Inférence WebUI : Interface Web facile à utiliser basée sur Gradio, compatible avec Chrome, Firefox, Edge, etc.
- Inférence GUI : Fournit une interface graphique PyQt6, fonctionnant de manière transparente avec le serveur API, prenant en charge Linux, Windows et macOS.
🚀 Facilité de déploiement
- Facile à configurer un serveur d'inférence.
- Prend en charge nativement Linux, Windows et macOS.
- Minimise la perte de vitesse.
🔄 Entièrement de bout en bout
- Intègre automatiquement les parties ASR et TTS.
- Pas besoin d'insérer d'autres modèles.
- Véritable solution de bout en bout, architecture non triphasée (ASR+LLM+TTS).
🎨 Fonctionnalités avancées
- Contrôle de la tonalité : Peut utiliser un audio de référence pour contrôler la tonalité de la voix.
- Expression émotionnelle : Le modèle peut générer une voix avec de fortes émotions.
Architecture technique
Fish Speech est basé sur la technologie des grands modèles de langage (LLM), utilisant des algorithmes d'apprentissage profond avancés pour réaliser une synthèse vocale multilingue de haute qualité. Le système adopte une architecture de conception entièrement de bout en bout, évitant la complexité des méthodes traditionnelles en trois phases.
Informations sur la licence
- Dépôt de code : Publié sous la licence Apache.
- Poids du modèle : Publié sous la licence CC-BY-NC-SA-4.0.
- L'utilisation nécessite la mention du contenu publié sous la licence CC BY-NC-SA 4.0.
Derniers développements
Le projet a été mis à niveau vers la marque OpenAudio, lançant une nouvelle génération de modèles de synthèse vocale avancés basés sur Fish-Speech, avec des améliorations significatives et de nouvelles fonctionnalités.
Citation académique
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
Résumé
Fish Speech est une solution TTS open source puissante et facile à utiliser, particulièrement adaptée aux développeurs et aux chercheurs qui ont besoin de synthèse vocale et de clonage vocal de haute qualité. Son architecture technique avancée, sa prise en charge multilingue et son interface conviviale en font l'un des meilleurs systèmes TTS open source actuels.