myshell-ai/OpenVoiceView GitHub Homepage for Latest Official Releases

OpenVoice: Eine sofortige Sprachklontechnologie, die von MIT und MyShell gemeinsam entwickelt wurde und auf einem Audio-Basismodell basiert, um mehrsprachiges Stimmenklonen zu ermöglichen.

MITPythonOpenVoicemyshell-ai 34.4k Last Updated: April 19, 2025

OpenVoice – Detaillierte Projektbeschreibung

Projektübersicht

OpenVoice ist ein Open-Source-Projekt für sofortiges Sprachklonen, das gemeinsam vom Massachusetts Institute of Technology (MIT) und MyShell entwickelt wurde. Das Projekt basiert auf einem Audio-Basismodell und ermöglicht hochwertiges, mehrsprachiges Sprachklonen und -synthese. Seit Mai 2023 bietet OpenVoice die Möglichkeit zum sofortigen Sprachklonen auf der MyShell.ai-Plattform und wurde bis November 2023 von Millionen von Nutzern weltweit verwendet.

Kernfunktionen und -merkmale

1. Präzises Stimmenklonen

Hochpräzise Stimmenreplikation: OpenVoice ist in der Lage, die Stimmcharakteristika der Referenz-Audiodatei präzise zu klonen.
Mehrsprachige Generierung: Unterstützt die Generierung von Sprache in verschiedenen Sprachen und Akzenten.
Hohe Wiedergabetreue: Die generierte Sprache ist der ursprünglichen Stimme sehr ähnlich.

2. Flexible Steuerung des Sprachstils

Emotionskontrolle: Ermöglicht die präzise Steuerung des emotionalen Ausdrucks der generierten Sprache.
Akzentanpassung: Unterstützt die Anpassung verschiedener Akzentstile.
Prosodieparameter: Umfasst die feingranulare Steuerung von Rhythmus, Pausen und Intonation.
Stilparameter: Umfassende Anpassungsmöglichkeiten der Sprachstilparameter.

3. Zero-Shot, sprachübergreifendes Sprachklonen

Sprachübergreifende Fähigkeiten: Die Sprache der generierten Sprache und die Sprache der Referenzsprache müssen nicht im Trainingsdatensatz enthalten sein.
Kein zusätzliches Training erforderlich: Kann direkt mit unbekannten Sprachkombinationen umgehen.
Breite Anwendbarkeit: Geeignet für verschiedene Sprachszenarien und Anwendungsanforderungen.

Technische Architektur

Basistechnologien

OpenVoice basiert auf den folgenden exzellenten Open-Source-Projekten:

TTS (Text-to-Speech): Kerntechnologie für die Text-zu-Sprache-Umwandlung.
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech): End-to-End-Sprachsynthese.
VITS2: Verbesserte Version von VITS.

Trainingsstrategie

Verwendung eines umfangreichen, mehrsprachigen Trainingsdatensatzes mit mehreren Sprechern.
Nutzung von variationaler Inferenz und adversarialen Lerntechniken.
Optimierte Trainingsstrategie zur Sicherstellung einer hochwertigen Audioausgabe.

Unterstützte Sprachen

V2-Version – nativ unterstützte Sprachen

Englisch (English)
Chinesisch (Chinese)
Spanisch (Spanish)
Französisch (French)
Japanisch (Japanese)
Koreanisch (Korean)

Sprachübergreifende Fähigkeiten

Zusätzlich zu den nativ unterstützten Sprachen kann OpenVoice durch Zero-Shot-Lernfähigkeiten auch Sprachklonaufgaben in anderen Sprachen bearbeiten.

Anwendungsbereiche

Inhaltserstellung

Podcast- und Audioinhalte-Produktion
Produktion von Hörbüchern
Mehrsprachige Inhaltslokalisierung

Aus- und Weiterbildung

Unterstützung beim Sprachenlernen
Online-Bildungskurse
Personalisierte Lernerfahrung

Unterhaltungsmedien

Synchronisation von Spielfiguren
Animationsproduktion
Virtuelle Moderatoren

Kommerzielle Anwendungen

Kundendienst-Bots
Sprachassistenten
Werbe- und Marketinginhalte

Installation und Verwendung

Systemanforderungen

Python 3.9+
CUDA-fähige GPU (empfohlen)

Schnellstart

# Virtuelle Umgebung erstellen
conda create -n openvoice python=3.9
conda activate openvoice

# Projekt klonen
git clone https://github.com/myshell-ai/OpenVoice.git
cd OpenVoice

# Abhängigkeiten installieren
pip install -e .

Demo-Beispiele

Das Projekt bietet vollständige Jupyter Notebook-Demos:

demo_part1.ipynb: Zeigt die flexible Steuerung des Sprachstils.
demo_part2.ipynb: Demonstriert die sprachübergreifende Sprachklonfunktion.

Akademische Ergebnisse

Die Forschungsergebnisse des Projekts wurden in der wissenschaftlichen Arbeit "OpenVoice: Versatile Instant Voice Cloning" veröffentlicht, die die technischen Grundlagen und experimentellen Ergebnisse detailliert erläutert.

Lizenz und kommerzielle Nutzung

Open-Source-Lizenz

Lizenztyp: MIT-Lizenz
Kommerzielle Nutzung: Völlig kostenlos, uneingeschränkte kommerzielle Nutzung
Forschungsnutzung: Unterstützung für akademische Forschung und Entwicklung

Leistungsvorteile

Vergleich mit kommerziellen APIs

Kosteneffizienz: Wirtschaftlicher als kommerzielle Sprachklon-APIs
Leistungsfähigkeit: Übertrifft kommerzielle Lösungen in mehreren Metriken
Flexibilität: Höhere Anpassungsfähigkeit und Kontrollmöglichkeiten

Technische Indikatoren

Hochwertige Audioausgabe
Schnelle Inferenzgeschwindigkeit
Geringer Ressourcenverbrauch
Stabile Leistung

Zusammenfassung

OpenVoice repräsentiert den aktuellen Stand der Technik im Bereich des Sprachklonens und bietet durch die gemeinsame Entwicklung von MIT und MyShell Entwicklern und Forschern weltweit eine leistungsstarke, flexible und kostenlose Sprachklonlösung.

Hauptvorteile

Technologisch fortschrittlich: Basiert auf den neuesten Deep-Learning- und Sprachsynthesetechnologien.
Umfassende Funktionen: Umfasst Kernfunktionen wie Stimmenklonen, Stilkontrolle, sprachübergreifende Unterstützung usw.
Benutzerfreundlich: Bietet vollständige Dokumentation, Beispiele und Community-Support.
Kommerziell freundlich: Die MIT-Lizenz gewährleistet eine freie kommerzielle Nutzung.