Modelo fundamental de áudio de texto de código aberto Boson AI, pré-treinado em 10 milhões de horas de dados de áudio, suporta síntese de fala expressiva e geração de áudio multilíngue.

Apache-2.0Pythonhiggs-audioboson-ai 6.1k Last Updated: July 30, 2025

Detalhes do Projeto Higgs Audio V2

Visão Geral do Projeto

Higgs Audio V2 é um poderoso modelo de base de áudio de código aberto da Boson AI, pré-treinado com mais de 10 milhões de horas de dados de áudio e dados de texto diversificados. Apesar de não ter passado por pós-treinamento ou ajuste fino, o Higgs Audio V2 se destaca na geração de áudio expressivo, graças à sua profunda compreensão linguística e acústica.

Principais Características

1. Capacidade Poderosa de Síntese de Fala

  • Suporte para geração de fala expressiva
  • Suporte para geração de áudio multilíngue
  • Geração natural de diálogo multi-locutor
  • Adaptação automática de prosódia para narração
  • Cantarolar melódico com voz clonada
  • Geração simultânea de fala e música de fundo

2. Desempenho Excepcional

Nas avaliações EmergentTTS-Eval, o modelo obteve taxas de vitória de 75,7% e 55,7% nas categorias "emoção" e "pergunta", respectivamente, superando o "gpt-4o-mini-tts". Além disso, alcançou desempenho líder da indústria em benchmarks TTS tradicionais, como Seed-TTS Eval e o conjunto de dados de fala emocional (ESD).

3. Capacidades Emergentes Únicas

O modelo demonstra capacidades raramente vistas em sistemas anteriores:

  • Geração natural de diálogo multi-locutor multilíngue
  • Adaptação automática de prosódia durante a narração
  • Cantarolar melódico usando voz clonada
  • Geração simultânea de fala e música de fundo

Arquitetura Técnica

Inovações Tecnológicas Principais

  1. Pipeline de Anotação Automatizada: Utiliza múltiplos modelos ASR, modelos de classificação de eventos sonoros e modelos internos de compreensão de áudio para limpar e anotar 10 milhões de horas de dados de áudio (conhecidos como AudioVerse).

  2. Tokenizador de Áudio Unificado: Um tokenizador de áudio unificado treinado do zero, capaz de capturar características semânticas e acústicas.

  3. Arquitetura DualFFN: Aprimora a capacidade do LLM de modelar tokens acústicos, mantendo uma sobrecarga computacional mínima.

Configuração do Ambiente

Ambiente Docker Recomendado

# Usando o NVIDIA Deep Learning Container
docker run --gpus all --ipc=host --net=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm nvcr.io/nvidia/pytorch:25.02-py3 bash

Métodos de Instalação Padrão

Usando Git + pip

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
pip install -r requirements.txt
pip install -e .

Usando Ambiente Virtual

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

Usando Conda

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .

Usando uv

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .

Exemplos de Uso

Exemplo Básico de Código Python

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
    Message(
        role="system",
        content=system_prompt,
    ),
    Message(
        role="user",
        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
    ),
]

device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95,
    top_k=50,
    stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)

torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

Exemplos de Uso na Linha de Comando

Gerar fala usando áudio de referência

python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--ref_audio belinda \
--temperature 0.3 \
--out_path generation.wav

Sem áudio de referência (o modelo decide a voz automaticamente)

python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--temperature 0.3 \
--out_path generation.wav

Gerar diálogo multi-locutor

python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav

Gerar diálogo multi-locutor com vozes especificadas

python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav

Resultados da Avaliação de Desempenho

Benchmarks TTS Tradicionais

Resultados da Avaliação SeedTTS-Eval e ESD

Modelo SeedTTS-Eval ESD
WER ↓ SIM ↑ WER ↓ SIM (emo2vec) ↑
Cosyvoice2 2.28 65.49 2.71 80.48
Qwen2.5-omni† 2.33 64.10 - -
ElevenLabs Multilingual V2 1.43 50.00 1.66 65.87
Higgs Audio v1 2.18 66.27 1.49 82.84
Higgs Audio v2 (base) 2.44 67.70 1.78 86.13

Avaliação EmergentTTS-Eval

Modelo Emoção (%) ↑ Pergunta (%) ↑
Higgs Audio v2 (base) 75.71% 55.71%

Avaliação Multi-locutor

Este projeto também projetou um benchmark de avaliação multi-locutor dedicado, contendo três subconjuntos:

  • two-speaker-conversation: 1000 diálogos sintéticos envolvendo dois locutores
  • small talk (no ref): 250 diálogos sintéticos, caracterizados por frases curtas e um número limitado de turnos
  • small talk (ref): 250 diálogos sintéticos semelhantes, contendo frases ainda mais curtas

Requisitos de Hardware

Importante: Para obter o melhor desempenho, é recomendável executar os exemplos de geração em uma máquina com GPU equipada com pelo menos 24GB de VRAM.

Recursos Avançados

Servidor API vLLM

O projeto também oferece um servidor API compatível com OpenAI, baseado no motor vLLM, para uso avançado de alto rendimento. Para detalhes, consulte o diretório examples/vllm.

Tokenizador de Áudio Personalizado

O projeto introduz um novo tokenizador de áudio discretizado, operando a apenas 25 quadros por segundo, enquanto mantém ou até melhora a qualidade do áudio em comparação com tokenizadores com o dobro da taxa de bits. Este modelo é o primeiro sistema unificado treinado em dados de 24 kHz, cobrindo fala, música e eventos sonoros.

Significado do Projeto

Com o lançamento da versão de código aberto, o Higgs Audio V2 convida desenvolvedores de todo o mundo a participar na moldagem do futuro da interação humano-computador. Ao gerar sua primeira amostra, você não está apenas ouvindo fala sintética — você está experimentando o próximo estágio evolutivo da tecnologia de fala.

O Higgs Audio V2 representa um avanço significativo na tecnologia de geração de áudio, fornecendo uma ferramenta poderosa para desenvolvedores e pesquisadores explorarem e inovarem em aplicações de IA de áudio.

Star History Chart