myshell-ai/OpenVoiceView GitHub Homepage for Latest Official Releases

OpenVoice: Tecnologia de clonagem de voz instantânea desenvolvida em conjunto pelo MIT e MyShell, que realiza a clonagem de voz multilíngue com base em modelos fundamentais de áudio.

MITPythonOpenVoicemyshell-ai 34.4k Last Updated: April 19, 2025

Apresentação Detalhada do Projeto OpenVoice

Visão Geral do Projeto

OpenVoice é um projeto de tecnologia de clonagem de voz instantânea de código aberto desenvolvido em conjunto pelo MIT (Massachusetts Institute of Technology) e pela MyShell. Este projeto é baseado em um modelo fundamental de áudio, capaz de realizar clonagem e síntese de voz multilíngue de alta qualidade. Desde maio de 2023, o OpenVoice tem fornecido capacidade de clonagem de voz instantânea para a plataforma MyShell.ai e, até novembro de 2023, foi usado dezenas de milhões de vezes por usuários em todo o mundo.

Principais Funções e Características

1. Clonagem Precisa de Timbre

Replicação de Timbre de Alta Precisão: OpenVoice é capaz de clonar com precisão as características de timbre do áudio de referência.
Geração Multilíngue: Suporta a geração de voz em vários idiomas e sotaques.
Alta Fidelidade: A voz gerada é altamente semelhante ao timbre original.

2. Controle Flexível do Estilo de Voz

Controle Emocional: Pode controlar com precisão a expressão emocional da voz gerada.
Ajuste de Sotaque: Suporta o ajuste de diferentes estilos de sotaque.
Parâmetros de Prosódia: Inclui controle granular de ritmo, pausas e entonação.
Parâmetros de Estilo: Capacidade abrangente de ajuste dos parâmetros de estilo de voz.

3. Clonagem de Voz Interlinguística Zero-Shot

Capacidade Interlinguística: O idioma da voz gerada e o idioma da voz de referência não precisam aparecer no conjunto de dados de treinamento.
Sem Necessidade de Treinamento Adicional: Pode lidar diretamente com combinações de idiomas nunca vistas.
Ampla Aplicabilidade: Adequado para vários cenários de idiomas e necessidades de aplicação.

Arquitetura Técnica

Tecnologia Base

OpenVoice é construído com base nos seguintes excelentes projetos de código aberto:

TTS (Text-to-Speech): Tecnologia central de texto para voz.
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech): Síntese de voz de ponta a ponta.
VITS2: Versão aprimorada do VITS.

Estratégia de Treinamento

Adota um conjunto de dados de treinamento multilíngue e multi-falante em larga escala.
Utiliza técnicas de inferência variacional e aprendizado adversarial.
Estratégias de treinamento otimizadas garantem saída de áudio de alta qualidade.

Idiomas Suportados

Idiomas Nativamente Suportados na Versão V2

Inglês (English)
Chinês (Chinese)
Espanhol (Spanish)
Francês (French)
Japonês (Japanese)
Coreano (Korean)

Capacidade Interlinguística

Além dos idiomas suportados nativamente, por meio da capacidade de aprendizado zero-shot, o OpenVoice também pode lidar com tarefas de clonagem de voz em outros idiomas.

Cenários de Aplicação

Criação de Conteúdo

Produção de podcasts e conteúdo de áudio.
Produção de audiolivros.
Localização de conteúdo multilíngue.

Educação e Treinamento

Auxílio ao aprendizado de idiomas.
Cursos de educação online.
Experiências de aprendizado personalizadas.

Mídia de Entretenimento

Dublagem de personagens de jogos.
Produção de animação.
Apresentadores virtuais.

Aplicações Comerciais

Robôs de atendimento ao cliente.
Assistentes de voz.
Conteúdo de publicidade e marketing.

Instalação e Uso

Requisitos de Ambiente

Python 3.9+
GPU com suporte CUDA (recomendado)

Início Rápido

# Criar ambiente virtual
conda create -n openvoice python=3.9
conda activate openvoice

# Clonar projeto
git clone https://github.com/myshell-ai/OpenVoice.git
cd OpenVoice

# Instalar dependências
pip install -e .

Exemplos de Demonstração

O projeto fornece demonstrações completas em Jupyter Notebook:

demo_part1.ipynb: Demonstra o controle flexível do estilo de voz.
demo_part2.ipynb: Demonstra a funcionalidade de clonagem de voz interlinguística.

Resultados Acadêmicos

Os resultados da pesquisa do projeto foram publicados no artigo acadêmico "OpenVoice: Versatile Instant Voice Cloning", que explica detalhadamente os princípios técnicos e os resultados experimentais.

Licença e Uso Comercial

Licença de Código Aberto

Tipo de Licença: MIT License
Uso Comercial: Totalmente gratuito, sem restrições de uso comercial.
Uso em Pesquisa: Suporta pesquisa e desenvolvimento acadêmicos.

Vantagens de Desempenho

Comparação com APIs Comerciais

Custo-Benefício: Mais econômico em comparação com APIs comerciais de clonagem de voz.
Desempenho: Supera as soluções comerciais em várias métricas.
Flexibilidade: Maior personalização e capacidade de controle.

Indicadores Técnicos

Saída de áudio de alta qualidade.
Velocidade de inferência rápida.
Baixo consumo de recursos.
Desempenho estável.

Conclusão

OpenVoice representa o nível de ponta da tecnologia de clonagem de voz atual. Através do desenvolvimento conjunto do MIT e da MyShell, ele fornece aos desenvolvedores e pesquisadores globais uma solução de clonagem de voz poderosa, flexível e gratuita.

Principais Vantagens

Tecnologia Avançada: Baseado nas mais recentes tecnologias de aprendizado profundo e síntese de voz.
Funcionalidade Abrangente: Abrange funções essenciais como clonagem de timbre, controle de estilo e suporte interlinguístico.
Fácil de Usar: Fornece documentação completa, exemplos e suporte da comunidade.
Amigável para Uso Comercial: A licença MIT garante o uso comercial livre.