Modelo de IA de vanguardia de Microsoft de código abierto para la síntesis de voz conversacional multilocutor, que admite la generación de audio conversacional expresivo de hasta 90 minutos con hasta 4 hablantes diferentes.
VibeVoice - Marco de Síntesis de Voz de Código Abierto de Vanguardia de Microsoft
Proyecto General
VibeVoice es un novedoso marco de código abierto desarrollado por Microsoft Research, diseñado específicamente para generar audio de diálogo expresivo, de larga duración y con múltiples oradores a partir de texto, como podcasts. Aborda desafíos significativos en los sistemas tradicionales de texto a voz (TTS) relacionados con la escalabilidad, la consistencia del orador y las transiciones naturales.
Innovación Tecnológica Central
Tokenizadores de Voz Continuos
La innovación central de VibeVoice reside en el uso de tokenizadores de voz continuos (acústicos y semánticos) que operan a una tasa de fotogramas ultrabaja de 7.5 Hz. Estos tokenizadores mejoran significativamente la eficiencia computacional al procesar secuencias largas, manteniendo eficazmente la fidelidad del audio.
Marco de Difusión Next-Token
VibeVoice emplea un marco de difusión next-token, que aprovecha los Grandes Modelos de Lenguaje (LLM) para comprender el contexto del texto y el flujo del diálogo, y utiliza un cabezal de difusión para generar detalles acústicos de alta fidelidad.
Características Principales
🎯 Capacidades Clave
- Generación de Audio Ultralargo: Capaz de sintetizar voz de hasta 90 minutos de duración.
- Soporte para Diálogos Multiorador: Admite hasta 4 oradores distintos, superando la limitación de 1-2 oradores de muchos modelos existentes.
- Síntesis Multilingüe: Soporta inglés y chino, y permite narraciones multilingües (ej. indicación en inglés → voz en chino).
- Síntesis de Canto Básica: Posee capacidades básicas de síntesis de canto.
🏗️ Arquitectura Técnica
La base de VibeVoice es un LLM de 1.5B parámetros (Qwen2.5-1.5B), que integra dos novedosos tokenizadores —acústico y semántico—, ambos diseñados para operar a una baja tasa de fotogramas (7.5Hz) para lograr eficiencia computacional y consistencia en secuencias largas.
Componentes Técnicos:
- Tokenizador Acústico: Una variante de σ-VAE con una estructura de codificador-decodificador espejada (aproximadamente 340M parámetros cada uno), logrando un submuestreo de 3200x desde audio crudo de 24kHz.
- Tokenizador Semántico: Entrenado a través de una tarea proxy de ASR, esta arquitectura de solo codificador refleja el diseño del tokenizador acústico.
- Cabezal Decodificador de Difusión: Un módulo de difusión condicional ligero (aproximadamente 123M parámetros) que predice características acústicas.
Versiones del Modelo
Modelo | Longitud del Contexto | Longitud de Generación | Enlace de Descarga |
---|---|---|---|
VibeVoice-1.5B | 64K | ~90 minutos | HuggingFace |
VibeVoice-7B | 64K | ~90 minutos | HuggingFace |
VibeVoice-0.5B-Streaming | - | - | Próximamente |
Instalación y Uso
Preparación del Entorno
Se recomienda usar NVIDIA Deep Learning Container para gestionar el entorno CUDA:
# Iniciar contenedor Docker
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3
# Si flash attention no está en el entorno, instalar manualmente
pip install flash-attn --no-build-isolation
Pasos de Instalación
# Clonar el proyecto
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/
# Instalar dependencias
pip install -e .
apt update && apt install ffmpeg -y
Métodos de Uso
Interfaz de Demostración Gradio
# Modelo 1.5B
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
# Modelo 7B
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share
Inferencia desde Archivo
# Voz de un solo orador
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice
# Voz de múltiples oradores
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan
Escenarios de Aplicación
- Producción de Podcasts: Generación de audio de diálogo con múltiples presentadores (hasta 4 voces), con una duración de hasta 90 minutos.
- Producción de Audiolibros: Creación de narraciones ricas en emociones para hacer los audiolibros más vívidos y atractivos.
- Sistemas de Diálogo: Generación de voz natural en escenarios de diálogo de múltiples turnos.
- Creación de Contenido: Automatización de la generación de contenido de audio.
Limitaciones Técnicas
Limitaciones Actuales
- Restricciones de Idioma: Solo soporta inglés y chino.
- Audio No Vocal: El modelo se centra en la síntesis de voz y no procesa música de fondo ni efectos de sonido.
- Voz Superpuesta: El modelo actual no soporta la generación de segmentos de diálogo superpuestos.
Notas sobre la Voz en Chino
Al sintetizar voz en chino, se pueden encontrar inestabilidades ocasionales. Se recomienda:
- Usar puntuación en inglés incluso para texto en chino, preferiblemente solo comas y puntos.
- Usar la versión del modelo 7B, cuya estabilidad es notablemente mejor.
Responsabilidad y Limitaciones de Uso
Propósito de Investigación
No recomendamos el uso de VibeVoice para aplicaciones comerciales o prácticas sin pruebas y desarrollo adicionales. Este modelo está destinado únicamente a fines de investigación y desarrollo.
Riesgos Potenciales
Potencial de Deepfakes y Desinformación: La voz sintética de alta calidad puede ser mal utilizada para crear contenido de audio falso convincente, para suplantación, fraude o difusión de desinformación. Los usuarios deben asegurarse de que las transcripciones sean fiables, verificar la precisión del contenido y evitar el uso del contenido generado de manera engañosa.
Contacto
Para sugerencias, preguntas o si encuentra comportamientos anómalos/ofensivos en la tecnología, por favor contacte a: VibeVoice@microsoft.com