Modelo fundamental de audio de texto de código abierto de Boson AI, preentrenado con 10 millones de horas de datos de audio, que admite síntesis de voz expresiva y generación de audio multilingüe.

Apache-2.0Pythonhiggs-audioboson-ai 6.1k Last Updated: July 30, 2025

Detalles del Proyecto Higgs Audio V2

Resumen del Proyecto

Higgs Audio V2 es un potente modelo fundacional de audio de código abierto de Boson AI, preentrenado con más de 10 millones de horas de datos de audio y datos de texto diversos. A pesar de no haber sido post-entrenado ni ajustado, Higgs Audio V2 sobresale en la generación de audio expresivo, gracias a su profunda comprensión lingüística y acústica.

Características Principales

1. Potente Capacidad de Síntesis de Voz

  • Soporte para la generación de voz expresiva
  • Soporte para la generación de audio multilingüe
  • Generación natural de diálogos con múltiples hablantes
  • Adaptación automática de la prosodia a la narración
  • Tarareo melódico con voz clonada
  • Generación simultánea de voz y música de fondo

2. Rendimiento Excepcional

En la evaluación EmergentTTS-Eval, el modelo obtuvo tasas de victoria del 75.7% y 55.7% en las categorías de "emoción" y "pregunta" respectivamente, superando a "gpt-4o-mini-tts". Al mismo tiempo, logró un rendimiento líder en la industria en pruebas de referencia TTS tradicionales como Seed-TTS Eval y el conjunto de datos de voz emocional (ESD).

3. Capacidades Emergentes Únicas

El modelo demuestra capacidades rara vez vistas en sistemas anteriores:

  • Generación natural de diálogos multilingües con múltiples hablantes
  • Adaptación automática de la prosodia durante la narración
  • Tarareo melódico utilizando voz clonada
  • Generación simultánea de voz y música de fondo

Arquitectura Técnica

Innovaciones Tecnológicas Clave

  1. Pipeline de Anotación Automatizada: Utiliza múltiples modelos ASR, modelos de clasificación de eventos de sonido y modelos internos de comprensión de audio para limpiar y anotar 10 millones de horas de datos de audio (denominados AudioVerse).

  2. Tokenizador de Audio Unificado: Un tokenizador de audio unificado entrenado desde cero, capaz de capturar características semánticas y acústicas.

  3. Arquitectura DualFFN: Mejora la capacidad del LLM para modelar tokens acústicos, manteniendo al mismo tiempo una sobrecarga computacional mínima.

Configuración del Entorno

Entorno Docker Recomendado

# Usar el Contenedor de Aprendizaje Profundo de NVIDIA
docker run --gpus all --ipc=host --net=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm nvcr.io/nvidia/pytorch:25.02-py3 bash

Métodos de Instalación Estándar

Usando Git + pip

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
pip install -r requirements.txt
pip install -e .

Usando un Entorno Virtual

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

Usando Conda

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .

Usando uv

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .

Ejemplos de Uso

Ejemplo Básico de Código Python

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
    Message(
        role="system",
        content=system_prompt,
    ),
    Message(
        role="user",
        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
    ),
]

device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95,
    top_k=50,
    stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)

torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

Ejemplos de Uso por Línea de Comandos

Generar Voz Usando Audio de Referencia

python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--ref_audio belinda \
--temperature 0.3 \
--out_path generation.wav

Sin Usar Audio de Referencia (el modelo decide la voz automáticamente)

python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--temperature 0.3 \
--out_path generation.wav

Generar Diálogo con Múltiples Hablantes

python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav

Generar Diálogo con Múltiples Hablantes Usando Voces Específicas

python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav

Resultados de la Evaluación de Rendimiento

Pruebas de Referencia TTS Tradicionales

Resultados de Evaluación SeedTTS-Eval y ESD

Modelo SeedTTS-Eval ESD
WER ↓ SIM ↑ WER ↓ SIM (emo2vec) ↑
Cosyvoice2 2.28 65.49 2.71 80.48
Qwen2.5-omni† 2.33 64.10 - -
ElevenLabs Multilingual V2 1.43 50.00 1.66 65.87
Higgs Audio v1 2.18 66.27 1.49 82.84
Higgs Audio v2 (base) 2.44 67.70 1.78 86.13

Evaluación EmergentTTS-Eval

Modelo Emoción (%) ↑ Pregunta (%) ↑
Higgs Audio v2 (base) 75.71% 55.71%

Evaluación Multihablante

Este proyecto también ha diseñado un banco de pruebas de evaluación multihablante dedicado, que incluye tres subconjuntos:

  • two-speaker-conversation: 1000 diálogos sintéticos que involucran a dos hablantes.
  • small talk (no ref): 250 diálogos sintéticos, caracterizados por frases cortas y un número limitado de turnos.
  • small talk (ref): 250 diálogos sintéticos similares, que contienen frases aún más cortas.

Requisitos de Hardware

Nota importante: Para un rendimiento óptimo, se recomienda ejecutar los ejemplos de generación en una máquina con GPU equipada con al menos 24 GB de VRAM.

Funciones Avanzadas

Servidor API vLLM

El proyecto también proporciona un servidor API compatible con OpenAI basado en el motor vLLM para usos avanzados de alto rendimiento. Para más detalles, consulte el directorio examples/vllm.

Tokenizador de Audio Personalizado

El proyecto introduce un nuevo tokenizador de audio discretizado que opera a solo 25 fotogramas por segundo, manteniendo o incluso mejorando la calidad de audio en comparación con tokenizadores con el doble de tasa de bits. Este modelo es el primer sistema unificado entrenado con datos de 24 kHz, cubriendo voz, música y eventos de sonido.

Significado del Proyecto

Con el lanzamiento de la versión de código abierto, Higgs Audio V2 invita a desarrolladores de todo el mundo a participar en la configuración del futuro de la interacción humano-máquina. Al generar su primera muestra, no solo escuchará voz sintética, sino que experimentará la próxima etapa evolutiva de la tecnología de voz.

Higgs Audio V2 representa un avance significativo en la tecnología de generación de audio, proporcionando a desarrolladores e investigadores una potente herramienta para explorar e innovar en aplicaciones de IA de audio.

Star History Chart