Modelo de IA de ponta para síntese de voz conversacional multi-pessoa de código aberto da Microsoft, suporta a geração de áudio expressivo de conversas com até 4 falantes diferentes por até 90 minutos.

MITPythonVibeVoicemicrosoft 6.7k Last Updated: September 01, 2025

VibeVoice - Estrutura de Síntese de Voz de Código Aberto de Ponta da Microsoft

Visão Geral do Projeto

VibeVoice é uma nova estrutura de código aberto desenvolvida pela Microsoft Research, especificamente projetada para gerar áudio de conversas expressivas, longas e com múltiplos falantes a partir de texto, como podcasts. Ela aborda desafios significativos em sistemas tradicionais de Texto para Fala (TTS) relacionados à escalabilidade, consistência do falante e transições naturais.

Inovação Tecnológica Central

Tokenizador de Fala Contínuo

A inovação central do VibeVoice reside no uso de tokenizadores de fala contínuos (acústicos e semânticos), operando a uma taxa de quadros ultrabaixa de 7.5 Hz. Esses tokenizadores aumentam significativamente a eficiência computacional no processamento de sequências longas, mantendo efetivamente a fidelidade do áudio.

Estrutura de Difusão de Próximo Token

VibeVoice adota uma estrutura de difusão de próximo token, utilizando Grandes Modelos de Linguagem (LLM) para compreender o contexto do texto e o fluxo da conversa, e empregando uma cabeça de difusão para gerar detalhes acústicos de alta fidelidade.

Principais Características

🎯 Capacidades Essenciais

  • Geração de Áudio Ultralongo: Capaz de sintetizar até 90 minutos de fala
  • Suporte a Conversas com Múltiplos Falantes: Suporta até 4 falantes diferentes, superando a limitação de 1-2 falantes de muitos modelos existentes
  • Síntese Translinguística: Suporta inglês e chinês, e permite narração translinguística (ex: prompt em inglês → voz em chinês)
  • Síntese Básica de Canto: Possui funcionalidade básica de síntese de canto

🏗️ Arquitetura Técnica

A base do VibeVoice é um LLM de 1.5B parâmetros (Qwen2.5-1.5B), que integra dois novos tokenizadores – acústico e semântico – ambos projetados para operar a uma baixa taxa de quadros (7.5Hz) para alcançar eficiência computacional e consistência em sequências longas.

Componentes Técnicos:

  • Tokenizador Acústico: Uma variante σ-VAE com uma estrutura espelhada de codificador-decodificador (cada um com aproximadamente 340M parâmetros), alcançando um downsampling de 3200x do áudio bruto de 24kHz
  • Tokenizador Semântico: Treinado através de uma tarefa proxy ASR, esta arquitetura apenas de codificador espelha o design do tokenizador acústico
  • Cabeça de Decodificador de Difusão: Um módulo de difusão condicional leve (aproximadamente 123M parâmetros) que prevê características acústicas

Versões do Modelo

Modelo Comprimento do Contexto Comprimento da Geração Link para Download
VibeVoice-1.5B 64K ~90 minutos HuggingFace
VibeVoice-7B 64K ~90 minutos HuggingFace
VibeVoice-0.5B-Streaming - - Em breve

Instalação e Uso

Preparação do Ambiente

Recomenda-se usar o NVIDIA Deep Learning Container para gerenciar o ambiente CUDA:

# Iniciar o contêiner Docker
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3

# Se o flash attention não estiver presente no ambiente, é necessário instalá-lo manualmente
pip install flash-attn --no-build-isolation

Etapas de Instalação

# Clonar o projeto
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/

# Instalar dependências
pip install -e .
apt update && apt install ffmpeg -y

Métodos de Uso

Interface de Demonstração Gradio

# Modelo 1.5B
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

# Modelo 7B
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share

Inferência a partir de Arquivo

# Voz de um único falante
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

# Voz de múltiplos falantes
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan

Cenários de Aplicação

  • Produção de Podcasts: Geração de áudio de conversas com múltiplos apresentadores (até 4 vozes), com duração de até 90 minutos
  • Produção de Audiolivros: Criação de narrações ricas em emoção para tornar os audiolivros mais vívidos e envolventes
  • Sistemas de Diálogo: Geração de fala natural em cenários de diálogo de múltiplas rodadas
  • Criação de Conteúdo: Automação da geração de conteúdo de áudio

Limitações Técnicas

Limitações Atuais

  • Restrições de Idioma: Suporta apenas inglês e chinês
  • Áudio Não-Vocal: O modelo foca na síntese de fala e não processa música de fundo ou efeitos sonoros
  • Fala Sobreposta: O modelo atual não suporta a geração de segmentos de diálogo sobrepostos

Observações sobre a Voz em Chinês

Ao sintetizar voz em chinês, pode-se encontrar instabilidade ocasional. Sugere-se:

  • Usar pontuação em inglês mesmo para texto em chinês, preferencialmente apenas vírgulas e pontos finais
  • Usar a versão do modelo 7B, que possui estabilidade significativamente melhor

Responsabilidades e Limitações de Uso

Fins de Pesquisa

Não recomendamos o uso do VibeVoice para aplicações comerciais ou práticas sem testes e desenvolvimento adicionais. Este modelo destina-se apenas a fins de pesquisa e desenvolvimento.

Riscos Potenciais

Potencial para Deepfakes e Desinformação: A fala sintetizada de alta qualidade pode ser mal utilizada para criar conteúdo de áudio falso e convincente, para fins de personificação, fraude ou disseminação de desinformação. Os usuários devem garantir a confiabilidade das transcrições, verificar a precisão do conteúdo e evitar o uso do conteúdo gerado de forma enganosa.

Contato

Para sugestões, perguntas ou para relatar comportamento anômalo/ofensivo na tecnologia, entre em contato: VibeVoice@microsoft.com

Star History Chart