Modelo de IA de ponta para síntese de voz conversacional multi-pessoa de código aberto da Microsoft, suporta a geração de áudio expressivo de conversas com até 4 falantes diferentes por até 90 minutos.
VibeVoice - Estrutura de Síntese de Voz de Código Aberto de Ponta da Microsoft
Visão Geral do Projeto
VibeVoice é uma nova estrutura de código aberto desenvolvida pela Microsoft Research, especificamente projetada para gerar áudio de conversas expressivas, longas e com múltiplos falantes a partir de texto, como podcasts. Ela aborda desafios significativos em sistemas tradicionais de Texto para Fala (TTS) relacionados à escalabilidade, consistência do falante e transições naturais.
Inovação Tecnológica Central
Tokenizador de Fala Contínuo
A inovação central do VibeVoice reside no uso de tokenizadores de fala contínuos (acústicos e semânticos), operando a uma taxa de quadros ultrabaixa de 7.5 Hz. Esses tokenizadores aumentam significativamente a eficiência computacional no processamento de sequências longas, mantendo efetivamente a fidelidade do áudio.
Estrutura de Difusão de Próximo Token
VibeVoice adota uma estrutura de difusão de próximo token, utilizando Grandes Modelos de Linguagem (LLM) para compreender o contexto do texto e o fluxo da conversa, e empregando uma cabeça de difusão para gerar detalhes acústicos de alta fidelidade.
Principais Características
🎯 Capacidades Essenciais
- Geração de Áudio Ultralongo: Capaz de sintetizar até 90 minutos de fala
- Suporte a Conversas com Múltiplos Falantes: Suporta até 4 falantes diferentes, superando a limitação de 1-2 falantes de muitos modelos existentes
- Síntese Translinguística: Suporta inglês e chinês, e permite narração translinguística (ex: prompt em inglês → voz em chinês)
- Síntese Básica de Canto: Possui funcionalidade básica de síntese de canto
🏗️ Arquitetura Técnica
A base do VibeVoice é um LLM de 1.5B parâmetros (Qwen2.5-1.5B), que integra dois novos tokenizadores – acústico e semântico – ambos projetados para operar a uma baixa taxa de quadros (7.5Hz) para alcançar eficiência computacional e consistência em sequências longas.
Componentes Técnicos:
- Tokenizador Acústico: Uma variante σ-VAE com uma estrutura espelhada de codificador-decodificador (cada um com aproximadamente 340M parâmetros), alcançando um downsampling de 3200x do áudio bruto de 24kHz
- Tokenizador Semântico: Treinado através de uma tarefa proxy ASR, esta arquitetura apenas de codificador espelha o design do tokenizador acústico
- Cabeça de Decodificador de Difusão: Um módulo de difusão condicional leve (aproximadamente 123M parâmetros) que prevê características acústicas
Versões do Modelo
Modelo | Comprimento do Contexto | Comprimento da Geração | Link para Download |
---|---|---|---|
VibeVoice-1.5B | 64K | ~90 minutos | HuggingFace |
VibeVoice-7B | 64K | ~90 minutos | HuggingFace |
VibeVoice-0.5B-Streaming | - | - | Em breve |
Instalação e Uso
Preparação do Ambiente
Recomenda-se usar o NVIDIA Deep Learning Container para gerenciar o ambiente CUDA:
# Iniciar o contêiner Docker
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3
# Se o flash attention não estiver presente no ambiente, é necessário instalá-lo manualmente
pip install flash-attn --no-build-isolation
Etapas de Instalação
# Clonar o projeto
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/
# Instalar dependências
pip install -e .
apt update && apt install ffmpeg -y
Métodos de Uso
Interface de Demonstração Gradio
# Modelo 1.5B
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
# Modelo 7B
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share
Inferência a partir de Arquivo
# Voz de um único falante
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice
# Voz de múltiplos falantes
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan
Cenários de Aplicação
- Produção de Podcasts: Geração de áudio de conversas com múltiplos apresentadores (até 4 vozes), com duração de até 90 minutos
- Produção de Audiolivros: Criação de narrações ricas em emoção para tornar os audiolivros mais vívidos e envolventes
- Sistemas de Diálogo: Geração de fala natural em cenários de diálogo de múltiplas rodadas
- Criação de Conteúdo: Automação da geração de conteúdo de áudio
Limitações Técnicas
Limitações Atuais
- Restrições de Idioma: Suporta apenas inglês e chinês
- Áudio Não-Vocal: O modelo foca na síntese de fala e não processa música de fundo ou efeitos sonoros
- Fala Sobreposta: O modelo atual não suporta a geração de segmentos de diálogo sobrepostos
Observações sobre a Voz em Chinês
Ao sintetizar voz em chinês, pode-se encontrar instabilidade ocasional. Sugere-se:
- Usar pontuação em inglês mesmo para texto em chinês, preferencialmente apenas vírgulas e pontos finais
- Usar a versão do modelo 7B, que possui estabilidade significativamente melhor
Responsabilidades e Limitações de Uso
Fins de Pesquisa
Não recomendamos o uso do VibeVoice para aplicações comerciais ou práticas sem testes e desenvolvimento adicionais. Este modelo destina-se apenas a fins de pesquisa e desenvolvimento.
Riscos Potenciais
Potencial para Deepfakes e Desinformação: A fala sintetizada de alta qualidade pode ser mal utilizada para criar conteúdo de áudio falso e convincente, para fins de personificação, fraude ou disseminação de desinformação. Os usuários devem garantir a confiabilidade das transcrições, verificar a precisão do conteúdo e evitar o uso do conteúdo gerado de forma enganosa.
Contato
Para sugestões, perguntas ou para relatar comportamento anômalo/ofensivo na tecnologia, entre em contato: VibeVoice@microsoft.com