Modelo de IA de vanguardia de Microsoft de código abierto para la síntesis de voz conversacional multilocutor, que admite la generación de audio conversacional expresivo de hasta 90 minutos con hasta 4 hablantes diferentes.

MITPythonVibeVoicemicrosoft 6.7k Last Updated: September 01, 2025

VibeVoice - Marco de Síntesis de Voz de Código Abierto de Vanguardia de Microsoft

Proyecto General

VibeVoice es un novedoso marco de código abierto desarrollado por Microsoft Research, diseñado específicamente para generar audio de diálogo expresivo, de larga duración y con múltiples oradores a partir de texto, como podcasts. Aborda desafíos significativos en los sistemas tradicionales de texto a voz (TTS) relacionados con la escalabilidad, la consistencia del orador y las transiciones naturales.

Innovación Tecnológica Central

Tokenizadores de Voz Continuos

La innovación central de VibeVoice reside en el uso de tokenizadores de voz continuos (acústicos y semánticos) que operan a una tasa de fotogramas ultrabaja de 7.5 Hz. Estos tokenizadores mejoran significativamente la eficiencia computacional al procesar secuencias largas, manteniendo eficazmente la fidelidad del audio.

Marco de Difusión Next-Token

VibeVoice emplea un marco de difusión next-token, que aprovecha los Grandes Modelos de Lenguaje (LLM) para comprender el contexto del texto y el flujo del diálogo, y utiliza un cabezal de difusión para generar detalles acústicos de alta fidelidad.

Características Principales

🎯 Capacidades Clave

  • Generación de Audio Ultralargo: Capaz de sintetizar voz de hasta 90 minutos de duración.
  • Soporte para Diálogos Multiorador: Admite hasta 4 oradores distintos, superando la limitación de 1-2 oradores de muchos modelos existentes.
  • Síntesis Multilingüe: Soporta inglés y chino, y permite narraciones multilingües (ej. indicación en inglés → voz en chino).
  • Síntesis de Canto Básica: Posee capacidades básicas de síntesis de canto.

🏗️ Arquitectura Técnica

La base de VibeVoice es un LLM de 1.5B parámetros (Qwen2.5-1.5B), que integra dos novedosos tokenizadores —acústico y semántico—, ambos diseñados para operar a una baja tasa de fotogramas (7.5Hz) para lograr eficiencia computacional y consistencia en secuencias largas.

Componentes Técnicos:

  • Tokenizador Acústico: Una variante de σ-VAE con una estructura de codificador-decodificador espejada (aproximadamente 340M parámetros cada uno), logrando un submuestreo de 3200x desde audio crudo de 24kHz.
  • Tokenizador Semántico: Entrenado a través de una tarea proxy de ASR, esta arquitectura de solo codificador refleja el diseño del tokenizador acústico.
  • Cabezal Decodificador de Difusión: Un módulo de difusión condicional ligero (aproximadamente 123M parámetros) que predice características acústicas.

Versiones del Modelo

Modelo Longitud del Contexto Longitud de Generación Enlace de Descarga
VibeVoice-1.5B 64K ~90 minutos HuggingFace
VibeVoice-7B 64K ~90 minutos HuggingFace
VibeVoice-0.5B-Streaming - - Próximamente

Instalación y Uso

Preparación del Entorno

Se recomienda usar NVIDIA Deep Learning Container para gestionar el entorno CUDA:

# Iniciar contenedor Docker
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3

# Si flash attention no está en el entorno, instalar manualmente
pip install flash-attn --no-build-isolation

Pasos de Instalación

# Clonar el proyecto
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/

# Instalar dependencias
pip install -e .
apt update && apt install ffmpeg -y

Métodos de Uso

Interfaz de Demostración Gradio

# Modelo 1.5B
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

# Modelo 7B
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share

Inferencia desde Archivo

# Voz de un solo orador
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

# Voz de múltiples oradores
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan

Escenarios de Aplicación

  • Producción de Podcasts: Generación de audio de diálogo con múltiples presentadores (hasta 4 voces), con una duración de hasta 90 minutos.
  • Producción de Audiolibros: Creación de narraciones ricas en emociones para hacer los audiolibros más vívidos y atractivos.
  • Sistemas de Diálogo: Generación de voz natural en escenarios de diálogo de múltiples turnos.
  • Creación de Contenido: Automatización de la generación de contenido de audio.

Limitaciones Técnicas

Limitaciones Actuales

  • Restricciones de Idioma: Solo soporta inglés y chino.
  • Audio No Vocal: El modelo se centra en la síntesis de voz y no procesa música de fondo ni efectos de sonido.
  • Voz Superpuesta: El modelo actual no soporta la generación de segmentos de diálogo superpuestos.

Notas sobre la Voz en Chino

Al sintetizar voz en chino, se pueden encontrar inestabilidades ocasionales. Se recomienda:

  • Usar puntuación en inglés incluso para texto en chino, preferiblemente solo comas y puntos.
  • Usar la versión del modelo 7B, cuya estabilidad es notablemente mejor.

Responsabilidad y Limitaciones de Uso

Propósito de Investigación

No recomendamos el uso de VibeVoice para aplicaciones comerciales o prácticas sin pruebas y desarrollo adicionales. Este modelo está destinado únicamente a fines de investigación y desarrollo.

Riesgos Potenciales

Potencial de Deepfakes y Desinformación: La voz sintética de alta calidad puede ser mal utilizada para crear contenido de audio falso convincente, para suplantación, fraude o difusión de desinformación. Los usuarios deben asegurarse de que las transcripciones sean fiables, verificar la precisión del contenido y evitar el uso del contenido generado de manera engañosa.

Contacto

Para sugerencias, preguntas o si encuentra comportamientos anómalos/ofensivos en la tecnología, por favor contacte a: VibeVoice@microsoft.com

Star History Chart