myshell-ai/OpenVoiceView GitHub Homepage for Latest Official Releases

OpenVoice : une technologie de clonage vocal instantané développée conjointement par le MIT et MyShell, basée sur un modèle de base audio pour réaliser le clonage vocal multilingue.

MITPythonOpenVoicemyshell-ai 34.4k Last Updated: April 19, 2025

Présentation détaillée du projet OpenVoice

Aperçu du projet

OpenVoice est un projet open source de clonage vocal instantané développé conjointement par le Massachusetts Institute of Technology (MIT) et MyShell. Basé sur un modèle de fondation audio, ce projet permet un clonage et une synthèse vocale multilingues de haute qualité. Depuis mai 2023, OpenVoice fournit des capacités de clonage vocal instantané à la plateforme MyShell.ai et, en novembre 2023, il a été utilisé des dizaines de millions de fois par des utilisateurs du monde entier.

Fonctionnalités et caractéristiques principales

1. Clonage précis de la voix

Reproduction de timbre de haute précision : OpenVoice est capable de cloner avec précision les caractéristiques de timbre de l'audio de référence.
Génération multilingue : Prend en charge la génération de voix dans plusieurs langues et accents.
Haute fidélité : La voix générée est très similaire au timbre original.

2. Contrôle flexible du style vocal

Contrôle des émotions : Permet de contrôler avec précision l'expression émotionnelle de la voix générée.
Réglage de l'accent : Prend en charge le réglage de différents styles d'accent.
Paramètres de prosodie : Contrôle granulaire du rythme, des pauses et de l'intonation, etc.
Paramètres de style : Capacités complètes de réglage des paramètres de style vocal.

3. Clonage vocal interlinguistique zéro-shot

Capacité interlinguistique : La langue de la voix générée et la langue de la voix de référence n'ont pas besoin d'apparaître dans l'ensemble de données d'entraînement.
Pas d'entraînement supplémentaire nécessaire : Peut traiter directement des combinaisons de langues jamais vues auparavant.
Large applicabilité : Convient à divers scénarios linguistiques et besoins d'application.

Architecture technique

Technologies de base

OpenVoice est construit sur les excellents projets open source suivants :

TTS (Text-to-Speech) : Technologie de base de la synthèse vocale.
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) : Synthèse vocale de bout en bout avec inférence variationnelle et apprentissage antagoniste.
VITS2 : Version améliorée de VITS.

Stratégie d'entraînement

Utilisation d'un ensemble de données d'entraînement multilingue et multi-locuteurs à grande échelle.
Utilisation de techniques d'inférence variationnelle et d'apprentissage antagoniste.
Une stratégie d'entraînement optimisée garantit une sortie audio de haute qualité.

Langues prises en charge

Langues nativement prises en charge par la version V2

Anglais (English)
Chinois (Chinese)
Espagnol (Spanish)
Français (French)
Japonais (Japanese)
Coréen (Korean)

Capacité interlinguistique

Outre les langues nativement prises en charge, OpenVoice peut également traiter des tâches de clonage vocal dans d'autres langues grâce à sa capacité d'apprentissage zéro-shot.

Scénarios d'application

Création de contenu

Production de podcasts et de contenu audio
Production de livres audio
Localisation de contenu multilingue

Éducation et formation

Aide à l'apprentissage des langues
Cours d'enseignement en ligne
Expériences d'apprentissage personnalisées

Divertissement et médias

Doublage de personnages de jeux
Production d'animation
Animateurs virtuels

Applications commerciales

Robots de service client
Assistants vocaux
Contenu publicitaire et marketing

Installation et utilisation

Configuration requise

Python 3.9+
GPU compatible CUDA (recommandé)

Démarrage rapide

# Créer un environnement virtuel
conda create -n openvoice python=3.9
conda activate openvoice

# Cloner le projet
git clone https://github.com/myshell-ai/OpenVoice.git
cd OpenVoice

# Installer les dépendances
pip install -e .

Exemples de démonstration

Le projet fournit des démonstrations complètes dans des Jupyter Notebook :

demo_part1.ipynb : Présente le contrôle flexible du style vocal.
demo_part2.ipynb : Démontre la fonctionnalité de clonage vocal interlinguistique.

Réalisations académiques

Les résultats de la recherche du projet ont été publiés dans l'article académique « OpenVoice: Versatile Instant Voice Cloning », qui explique en détail les principes techniques et les résultats expérimentaux.

Licence et utilisation commerciale

Licence open source

Type de licence : Licence MIT
Utilisation commerciale : Entièrement gratuite, utilisation commerciale illimitée
Utilisation à des fins de recherche : Prend en charge la recherche académique et le développement

Avantages en termes de performances

Comparaison avec les API commerciales

Rentabilité : Plus économique que les API de clonage vocal commerciales.
Performances : Surpasse les solutions commerciales sur plusieurs indicateurs.
Flexibilité : Capacité de personnalisation et de contrôle plus élevée.

Indicateurs techniques

Sortie audio de haute qualité
Vitesse d'inférence rapide
Faible consommation de ressources
Performances stables

Conclusion

OpenVoice représente l'état de l'art actuel de la technologie de clonage vocal. Grâce au développement conjoint du MIT et de MyShell, il offre aux développeurs et aux chercheurs du monde entier une solution de clonage vocal puissante, flexible et gratuite.

Principaux avantages

Technologie avancée : Basée sur les dernières technologies d'apprentissage profond et de synthèse vocale.
Fonctionnalités complètes : Couvre les fonctionnalités de base telles que le clonage de timbre, le contrôle du style et la prise en charge interlinguistique.
Facilité d'utilisation : Fournit une documentation complète, des exemples et un support communautaire.
Adapté à un usage commercial : La licence MIT garantit une utilisation commerciale libre.