Modelo fundamental de audio de texto de código abierto de Boson AI, preentrenado con 10 millones de horas de datos de audio, que admite síntesis de voz expresiva y generación de audio multilingüe.
Detalles del Proyecto Higgs Audio V2
Resumen del Proyecto
Higgs Audio V2 es un potente modelo fundacional de audio de código abierto de Boson AI, preentrenado con más de 10 millones de horas de datos de audio y datos de texto diversos. A pesar de no haber sido post-entrenado ni ajustado, Higgs Audio V2 sobresale en la generación de audio expresivo, gracias a su profunda comprensión lingüística y acústica.
Características Principales
1. Potente Capacidad de Síntesis de Voz
- Soporte para la generación de voz expresiva
- Soporte para la generación de audio multilingüe
- Generación natural de diálogos con múltiples hablantes
- Adaptación automática de la prosodia a la narración
- Tarareo melódico con voz clonada
- Generación simultánea de voz y música de fondo
2. Rendimiento Excepcional
En la evaluación EmergentTTS-Eval, el modelo obtuvo tasas de victoria del 75.7% y 55.7% en las categorías de "emoción" y "pregunta" respectivamente, superando a "gpt-4o-mini-tts". Al mismo tiempo, logró un rendimiento líder en la industria en pruebas de referencia TTS tradicionales como Seed-TTS Eval y el conjunto de datos de voz emocional (ESD).
3. Capacidades Emergentes Únicas
El modelo demuestra capacidades rara vez vistas en sistemas anteriores:
- Generación natural de diálogos multilingües con múltiples hablantes
- Adaptación automática de la prosodia durante la narración
- Tarareo melódico utilizando voz clonada
- Generación simultánea de voz y música de fondo
Arquitectura Técnica
Innovaciones Tecnológicas Clave
Pipeline de Anotación Automatizada: Utiliza múltiples modelos ASR, modelos de clasificación de eventos de sonido y modelos internos de comprensión de audio para limpiar y anotar 10 millones de horas de datos de audio (denominados AudioVerse).
Tokenizador de Audio Unificado: Un tokenizador de audio unificado entrenado desde cero, capaz de capturar características semánticas y acústicas.
Arquitectura DualFFN: Mejora la capacidad del LLM para modelar tokens acústicos, manteniendo al mismo tiempo una sobrecarga computacional mínima.
Configuración del Entorno
Entorno Docker Recomendado
# Usar el Contenedor de Aprendizaje Profundo de NVIDIA
docker run --gpus all --ipc=host --net=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm nvcr.io/nvidia/pytorch:25.02-py3 bash
Métodos de Instalación Estándar
Usando Git + pip
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
pip install -r requirements.txt
pip install -e .
Usando un Entorno Virtual
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .
Usando Conda
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .
Usando uv
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .
Ejemplos de Uso
Ejemplo Básico de Código Python
from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click
MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"
system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)
messages = [
Message(
role="system",
content=system_prompt,
),
Message(
role="user",
content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
),
]
device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)
output: HiggsAudioResponse = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024,
temperature=0.3,
top_p=0.95,
top_k=50,
stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)
Ejemplos de Uso por Línea de Comandos
Generar Voz Usando Audio de Referencia
python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--ref_audio belinda \
--temperature 0.3 \
--out_path generation.wav
Sin Usar Audio de Referencia (el modelo decide la voz automáticamente)
python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--temperature 0.3 \
--out_path generation.wav
Generar Diálogo con Múltiples Hablantes
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav
Generar Diálogo con Múltiples Hablantes Usando Voces Específicas
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav
Resultados de la Evaluación de Rendimiento
Pruebas de Referencia TTS Tradicionales
Resultados de Evaluación SeedTTS-Eval y ESD
Modelo | SeedTTS-Eval | ESD | ||
---|---|---|---|---|
WER ↓ | SIM ↑ | WER ↓ | SIM (emo2vec) ↑ | |
Cosyvoice2 | 2.28 | 65.49 | 2.71 | 80.48 |
Qwen2.5-omni† | 2.33 | 64.10 | - | - |
ElevenLabs Multilingual V2 | 1.43 | 50.00 | 1.66 | 65.87 |
Higgs Audio v1 | 2.18 | 66.27 | 1.49 | 82.84 |
Higgs Audio v2 (base) | 2.44 | 67.70 | 1.78 | 86.13 |
Evaluación EmergentTTS-Eval
Modelo | Emoción (%) ↑ | Pregunta (%) ↑ |
---|---|---|
Higgs Audio v2 (base) | 75.71% | 55.71% |
Evaluación Multihablante
Este proyecto también ha diseñado un banco de pruebas de evaluación multihablante dedicado, que incluye tres subconjuntos:
two-speaker-conversation
: 1000 diálogos sintéticos que involucran a dos hablantes.small talk (no ref)
: 250 diálogos sintéticos, caracterizados por frases cortas y un número limitado de turnos.small talk (ref)
: 250 diálogos sintéticos similares, que contienen frases aún más cortas.
Requisitos de Hardware
Nota importante: Para un rendimiento óptimo, se recomienda ejecutar los ejemplos de generación en una máquina con GPU equipada con al menos 24 GB de VRAM.
Funciones Avanzadas
Servidor API vLLM
El proyecto también proporciona un servidor API compatible con OpenAI basado en el motor vLLM para usos avanzados de alto rendimiento. Para más detalles, consulte el directorio examples/vllm
.
Tokenizador de Audio Personalizado
El proyecto introduce un nuevo tokenizador de audio discretizado que opera a solo 25 fotogramas por segundo, manteniendo o incluso mejorando la calidad de audio en comparación con tokenizadores con el doble de tasa de bits. Este modelo es el primer sistema unificado entrenado con datos de 24 kHz, cubriendo voz, música y eventos de sonido.
Significado del Proyecto
Con el lanzamiento de la versión de código abierto, Higgs Audio V2 invita a desarrolladores de todo el mundo a participar en la configuración del futuro de la interacción humano-máquina. Al generar su primera muestra, no solo escuchará voz sintética, sino que experimentará la próxima etapa evolutiva de la tecnología de voz.
Higgs Audio V2 representa un avance significativo en la tecnología de generación de audio, proporcionando a desarrolladores e investigadores una potente herramienta para explorar e innovar en aplicaciones de IA de audio.