Home
Login
RVC-Boss/GPT-SoVITS

GPT-SoVITS: Ferramenta de clonagem de voz com poucos exemplos que permite treinar um modelo TTS de alta qualidade com apenas 1 minuto de dados de voz.

MITPython 47.6kRVC-Boss Last Updated: 2025-06-13
https://github.com/RVC-Boss/GPT-SoVITS

Apresentação Detalhada do Projeto GPT-SoVITS

Visão Geral do Projeto

GPT-SoVITS é um projeto revolucionário de texto para fala (TTS) e clonagem de voz, desenvolvido e mantido pela equipe RVC-Boss. A principal característica deste projeto é a capacidade de treinar modelos TTS de alta qualidade usando uma quantidade mínima de dados de voz (apenas 1 minuto no mínimo), alcançando um verdadeiro significado de tecnologia de clonagem de voz com poucos exemplos.

O projeto é baseado nas arquiteturas de tecnologia GPT e SoVITS, combinando a poderosa capacidade de expressão de modelos de linguagem grandes com tecnologia de síntese de voz de alta qualidade, fornecendo aos usuários uma solução completa de clonagem de voz.

Principais Funções e Características

1. TTS de Zero e Poucos Exemplos

  • TTS de Zero Exemplos: Requer apenas 5 segundos de amostra de voz para realizar a conversão instantânea de texto para fala.
  • TTS de Poucos Exemplos: Usar 1 minuto de dados de treinamento pode ajustar o modelo, melhorando significativamente a semelhança e o realismo da voz.
  • Treinamento Rápido: Em comparação com os modelos TTS tradicionais, reduz significativamente o tempo de treinamento e os requisitos de dados.

2. Suporte Multilíngue

  • Suporta inferência multilíngue em chinês, inglês, japonês, coreano e cantonês.
  • Capaz de realizar inferência entre diferentes idiomas, mesmo que os dados de treinamento sejam diferentes do idioma de destino.
  • Processamento de front-end de texto otimizado, melhorando a qualidade da síntese em cada idioma.

3. Ferramenta WebUI Integrada

  • Separação de Voz e Acompanhamento: Usa a tecnologia UVR5 para separar a voz humana e a música de fundo no áudio.
  • Divisão Automática do Conjunto de Treinamento: Divide inteligentemente áudios longos em segmentos curtos adequados para treinamento.
  • ASR Chinês: Integra a função de reconhecimento automático de fala chinês.
  • Anotação de Texto: Ajuda os usuários a criar conjuntos de dados de treinamento de alta qualidade.
  • Operação com Um Clique: Simplifica o complexo processo de treinamento do modelo, adequado para iniciantes.

4. Suporte a Múltiplas Versões

O projeto oferece várias versões para atender a diferentes necessidades:

Versão V1

  • Funções básicas completas.
  • Adequado para iniciantes começarem a usar.

Versão V2

  • Suporta coreano e cantonês.
  • Processamento de front-end de texto otimizado.
  • Modelo pré-treinado expandido de 2k horas para 5k horas.
  • Melhora a qualidade da síntese de áudio de referência de baixa qualidade.

Versão V3

  • Maior semelhança de timbre.
  • Modelo GPT mais estável, reduzindo repetições e omissões.
  • Suporta uma expressão emocional mais rica.
  • Saída nativa de áudio de 24k.

Versão V4

  • Corrige o problema de artefatos metálicos de áudio da versão V3.
  • Saída nativa de áudio de 48k, evitando áudio borrado.
  • Considerada uma substituição direta da versão V3.

Versão V2Pro

  • Custo de hardware e velocidade comparáveis à V2.
  • Desempenho superior à versão V4.
  • Adequado para cenários de aplicação que exigem alto desempenho.

5. Suporte Multiplataforma

  • Windows: Fornece pacote de instalação integrado, basta clicar duas vezes para iniciar.
  • Linux: Suporta instalação do ambiente conda.
  • macOS: Suporta chips Apple Silicon.
  • Docker: Fornece suporte completo para imagens Docker.
  • Implantação na Nuvem: Suporta experiência Docker na nuvem AutoDL.

6. Ecossistema de Modelos Rico

  • Modelos pré-treinados cobrem vários idiomas e cenários.
  • Suporta mistura de modelos e treinamento personalizado.
  • Fornece modelos de super-resolução de áudio.
  • Biblioteca de modelos continuamente atualizada.

Arquitetura Técnica

Componentes Principais

  1. Módulo GPT: Responsável pela compreensão do texto e geração de características de voz.
  2. Módulo SoVITS: Responsável pela síntese de voz de alta qualidade.
  3. Interface WebUI: Fornece uma interface de operação amigável.
  4. Ferramentas de Processamento de Dados: Inclui funções de processamento de áudio, ASR, divisão, etc.

Formatos de Áudio Suportados

  • Entrada: Suporta vários formatos de áudio comuns.
  • Saída: Áudio de alta qualidade de 24k/48k.
  • Processamento: Suporta processamento em tempo real e processamento em lote.

Cenários de Aplicação

1. Criação de Conteúdo

  • Produção de audiolivros.
  • Dublagem de vídeos.
  • Programas de podcast.
  • Conteúdo educacional.

2. Aplicações Comerciais

  • Sistemas de voz de atendimento ao cliente.
  • Dublagem de anúncios.
  • Personalização de voz da marca.
  • Localização multilíngue.

3. Aplicações de Entretenimento

  • Dublagem de personagens de jogos.
  • Apresentadores virtuais.
  • Assistentes de voz.
  • Produção de áudio criativo.

4. Pesquisa e Desenvolvimento

  • Pesquisa de síntese de voz.
  • Processamento multilíngue.
  • Otimização de modelos acústicos.
  • Verificação de tecnologia de voz AI.

Vantagens do Projeto

1. Vantagens Técnicas

  • Alta Eficiência de Dados: Requer apenas 1 minuto de dados de treinamento no mínimo.
  • Excelente Qualidade: Efeito de síntese próximo à voz humana real.
  • Velocidade Rápida: Treinamento e inferência rápidos.
  • Forte Estabilidade: Reduz repetições e omissões.

2. Vantagens de Facilidade de Uso

  • Interface Amigável: Operação WebUI integrada é simples.
  • Documentação Completa: Fornece um guia de uso detalhado.
  • Suporte da Comunidade: Comunidade de código aberto ativa.
  • Atualização Contínua: Lança regularmente novos recursos e melhorias.

3. Vantagens de Código Aberto

  • Licença MIT: Código aberto e uso gratuito.
  • Código Transparente: Pode ser modificado e personalizado livremente.
  • Contribuição da Comunidade: Aceita contribuições e feedback da comunidade.
  • Compartilhamento de Tecnologia: Promove o intercâmbio e o desenvolvimento de tecnologia.

Requisitos do Sistema

Requisitos de Hardware

  • GPU: Placa de vídeo NVIDIA com suporte para CUDA 12.4/12.8 (recomendado).
  • CPU: Suporta execução de CPU (desempenho inferior).
  • Memória: Recomenda-se 16 GB ou mais de RAM.
  • Armazenamento: Pelo menos 10 GB de espaço disponível.

Ambiente de Software

  • Python: Versão 3.9-3.11.
  • PyTorch: Versão 2.5.1 ou superior.
  • CUDA: Versão 12.4 ou 12.8.
  • FFmpeg: Dependência para processamento de áudio.

Instalação e Uso

Instalação Rápida (Windows)

  1. Baixe o pacote de instalação integrado.
  2. Descompacte e clique duas vezes em go-webui.bat.
  3. Espere a inicialização ser concluída para usar.

Instalação do Ambiente de Desenvolvimento

# Criar ambiente conda
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits

# Instalar dependências
bash install.sh --device <CU126|CU128|ROCM|CPU> --source <HF|HF-Mirror|ModelScope>

Implantação Docker

# Usar Docker Compose
docker compose run --service-ports GPT-SoVITS-CU128

Conclusão

O projeto GPT-SoVITS representa um avanço importante na tecnologia de clonagem de voz, democratizando a tecnologia de síntese de voz de alta qualidade, permitindo que usuários comuns criem facilmente modelos de voz personalizados. A natureza de código aberto do projeto promove o rápido desenvolvimento e ampla aplicação da tecnologia, trazendo novas possibilidades para o campo da voz AI.