myshell-ai/OpenVoiceView GitHub Homepage for Latest Official Releases

OpenVoice: tecnología de clonación de voz instantánea desarrollada conjuntamente por MIT y MyShell, basada en un modelo fundamental de audio para lograr la clonación de voz multilingüe.

MITPythonOpenVoicemyshell-ai 34.4k Last Updated: April 19, 2025

Introducción Detallada al Proyecto OpenVoice

Resumen del Proyecto

OpenVoice es un proyecto de tecnología de clonación de voz instantánea de código abierto desarrollado conjuntamente por el Instituto Tecnológico de Massachusetts (MIT) y MyShell. Basado en un modelo fundamental de audio, este proyecto permite la clonación y síntesis de voz multilingüe de alta calidad. Desde mayo de 2023, OpenVoice ha proporcionado capacidades de clonación de voz instantánea a la plataforma MyShell.ai y, hasta noviembre de 2023, ha sido utilizado decenas de millones de veces por usuarios de todo el mundo.

Funciones y Características Principales

1. Clonación Precisa del Tono de Voz

Reproducción de Tono de Alta Precisión: OpenVoice puede clonar con precisión las características del tono de voz del audio de referencia.
Generación Multilingüe: Admite la generación de voz en múltiples idiomas y acentos.
Alta Fidelidad: La voz generada es altamente similar al tono de voz original.

2. Control Flexible del Estilo de Voz

Control Emocional: Permite controlar con precisión la expresión emocional de la voz generada.
Ajuste de Acento: Admite el ajuste de diferentes estilos de acento.
Parámetros de Prosodia: Incluye control granular de ritmo, pausas y entonación.
Parámetros de Estilo: Capacidad integral de ajuste de los parámetros de estilo de voz.

3. Clonación de Voz Interlingüística Zero-Shot

Capacidad Interlingüística: No es necesario que el idioma de la voz generada y el idioma de la voz de referencia aparezcan en el conjunto de datos de entrenamiento.
Sin Entrenamiento Adicional: Puede procesar directamente combinaciones de idiomas no vistas.
Amplia Aplicabilidad: Adecuado para diversas escenas lingüísticas y necesidades de aplicación.

Arquitectura Técnica

Tecnología Base

OpenVoice se basa en los siguientes excelentes proyectos de código abierto:

TTS (Text-to-Speech): Tecnología central de texto a voz.
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech): Síntesis de voz de extremo a extremo.
VITS2: Versión mejorada de VITS.

Estrategia de Entrenamiento

Utiliza un conjunto de datos de entrenamiento multilingüe y multi-locutor a gran escala.
Utiliza técnicas de inferencia variacional y aprendizaje adversarial.
La estrategia de entrenamiento optimizada garantiza una salida de audio de alta calidad.

Idiomas Compatibles

Idiomas Compatibles Nativamente en la Versión V2

Inglés (English)
Chino (Chinese)
Español (Spanish)
Francés (French)
Japonés (Japanese)
Coreano (Korean)

Capacidad Interlingüística

Además de los idiomas compatibles de forma nativa, OpenVoice también puede manejar tareas de clonación de voz en otros idiomas a través de la capacidad de aprendizaje zero-shot.

Escenarios de Aplicación

Creación de Contenido

Producción de podcasts y contenido de audio.
Producción de audiolibros.
Localización de contenido multilingüe.

Educación y Formación

Asistencia para el aprendizaje de idiomas.
Cursos de educación en línea.
Experiencias de aprendizaje personalizadas.

Entretenimiento y Medios

Doblaje de personajes de juegos.
Producción de animación.
Avatares virtuales.

Aplicaciones Comerciales

Robots de atención al cliente.
Asistentes de voz.
Contenido publicitario y de marketing.

Instalación y Uso

Requisitos del Entorno

Python 3.9+
GPU compatible con CUDA (recomendado)

Inicio Rápido

# Crear un entorno virtual
conda create -n openvoice python=3.9
conda activate openvoice

# Clonar el proyecto
git clone https://github.com/myshell-ai/OpenVoice.git
cd OpenVoice

# Instalar dependencias
pip install -e .

Ejemplos de Demostración

El proyecto proporciona demostraciones completas en Jupyter Notebook:

demo_part1.ipynb: Muestra el control flexible del estilo de voz.
demo_part2.ipynb: Demuestra la función de clonación de voz interlingüística.

Logros Académicos

Los resultados de la investigación del proyecto se han publicado en el artículo académico "OpenVoice: Versatile Instant Voice Cloning", que explica en detalle los principios técnicos y los resultados experimentales.

Licencia y Uso Comercial

Licencia de Código Abierto

Tipo de Licencia: MIT License
Uso Comercial: Completamente gratuito, sin restricciones para uso comercial.
Uso para Investigación: Soporte para investigación académica y desarrollo.

Ventajas de Rendimiento

Comparación con APIs Comerciales

Rentabilidad: Más económico en comparación con las APIs comerciales de clonación de voz.
Rendimiento: Supera las soluciones comerciales en múltiples métricas.
Flexibilidad: Mayor personalización y capacidad de control.

Indicadores Técnicos

Salida de audio de alta calidad.
Velocidad de inferencia rápida.
Bajo consumo de recursos.
Rendimiento estable.

Resumen

OpenVoice representa la vanguardia de la tecnología de clonación de voz actual. A través del desarrollo conjunto de MIT y MyShell, proporciona a desarrolladores e investigadores de todo el mundo una solución de clonación de voz potente, flexible y gratuita.

Principales Ventajas

Tecnología Avanzada: Basada en las últimas tecnologías de aprendizaje profundo y síntesis de voz.
Funcionalidad Completa: Cubre funciones centrales como la clonación de tono de voz, el control de estilo y el soporte interlingüístico.
Facilidad de Uso: Proporciona documentación completa, ejemplos y soporte comunitario.
Amigable para el Uso Comercial: La licencia MIT garantiza el uso comercial libre.