Modelo fundamental de áudio de texto de código aberto Boson AI, pré-treinado em 10 milhões de horas de dados de áudio, suporta síntese de fala expressiva e geração de áudio multilíngue.
Detalhes do Projeto Higgs Audio V2
Visão Geral do Projeto
Higgs Audio V2 é um poderoso modelo de base de áudio de código aberto da Boson AI, pré-treinado com mais de 10 milhões de horas de dados de áudio e dados de texto diversificados. Apesar de não ter passado por pós-treinamento ou ajuste fino, o Higgs Audio V2 se destaca na geração de áudio expressivo, graças à sua profunda compreensão linguística e acústica.
Principais Características
1. Capacidade Poderosa de Síntese de Fala
- Suporte para geração de fala expressiva
- Suporte para geração de áudio multilíngue
- Geração natural de diálogo multi-locutor
- Adaptação automática de prosódia para narração
- Cantarolar melódico com voz clonada
- Geração simultânea de fala e música de fundo
2. Desempenho Excepcional
Nas avaliações EmergentTTS-Eval, o modelo obteve taxas de vitória de 75,7% e 55,7% nas categorias "emoção" e "pergunta", respectivamente, superando o "gpt-4o-mini-tts". Além disso, alcançou desempenho líder da indústria em benchmarks TTS tradicionais, como Seed-TTS Eval e o conjunto de dados de fala emocional (ESD).
3. Capacidades Emergentes Únicas
O modelo demonstra capacidades raramente vistas em sistemas anteriores:
- Geração natural de diálogo multi-locutor multilíngue
- Adaptação automática de prosódia durante a narração
- Cantarolar melódico usando voz clonada
- Geração simultânea de fala e música de fundo
Arquitetura Técnica
Inovações Tecnológicas Principais
Pipeline de Anotação Automatizada: Utiliza múltiplos modelos ASR, modelos de classificação de eventos sonoros e modelos internos de compreensão de áudio para limpar e anotar 10 milhões de horas de dados de áudio (conhecidos como AudioVerse).
Tokenizador de Áudio Unificado: Um tokenizador de áudio unificado treinado do zero, capaz de capturar características semânticas e acústicas.
Arquitetura DualFFN: Aprimora a capacidade do LLM de modelar tokens acústicos, mantendo uma sobrecarga computacional mínima.
Configuração do Ambiente
Ambiente Docker Recomendado
# Usando o NVIDIA Deep Learning Container
docker run --gpus all --ipc=host --net=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm nvcr.io/nvidia/pytorch:25.02-py3 bash
Métodos de Instalação Padrão
Usando Git + pip
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
pip install -r requirements.txt
pip install -e .
Usando Ambiente Virtual
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .
Usando Conda
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .
Usando uv
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .
Exemplos de Uso
Exemplo Básico de Código Python
from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click
MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"
system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)
messages = [
Message(
role="system",
content=system_prompt,
),
Message(
role="user",
content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
),
]
device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)
output: HiggsAudioResponse = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024,
temperature=0.3,
top_p=0.95,
top_k=50,
stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)
Exemplos de Uso na Linha de Comando
Gerar fala usando áudio de referência
python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--ref_audio belinda \
--temperature 0.3 \
--out_path generation.wav
Sem áudio de referência (o modelo decide a voz automaticamente)
python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--temperature 0.3 \
--out_path generation.wav
Gerar diálogo multi-locutor
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav
Gerar diálogo multi-locutor com vozes especificadas
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav
Resultados da Avaliação de Desempenho
Benchmarks TTS Tradicionais
Resultados da Avaliação SeedTTS-Eval e ESD
Modelo | SeedTTS-Eval | ESD | ||
---|---|---|---|---|
WER ↓ | SIM ↑ | WER ↓ | SIM (emo2vec) ↑ | |
Cosyvoice2 | 2.28 | 65.49 | 2.71 | 80.48 |
Qwen2.5-omni† | 2.33 | 64.10 | - | - |
ElevenLabs Multilingual V2 | 1.43 | 50.00 | 1.66 | 65.87 |
Higgs Audio v1 | 2.18 | 66.27 | 1.49 | 82.84 |
Higgs Audio v2 (base) | 2.44 | 67.70 | 1.78 | 86.13 |
Avaliação EmergentTTS-Eval
Modelo | Emoção (%) ↑ | Pergunta (%) ↑ |
---|---|---|
Higgs Audio v2 (base) | 75.71% | 55.71% |
Avaliação Multi-locutor
Este projeto também projetou um benchmark de avaliação multi-locutor dedicado, contendo três subconjuntos:
two-speaker-conversation
: 1000 diálogos sintéticos envolvendo dois locutoressmall talk (no ref)
: 250 diálogos sintéticos, caracterizados por frases curtas e um número limitado de turnossmall talk (ref)
: 250 diálogos sintéticos semelhantes, contendo frases ainda mais curtas
Requisitos de Hardware
Importante: Para obter o melhor desempenho, é recomendável executar os exemplos de geração em uma máquina com GPU equipada com pelo menos 24GB de VRAM.
Recursos Avançados
Servidor API vLLM
O projeto também oferece um servidor API compatível com OpenAI, baseado no motor vLLM, para uso avançado de alto rendimento. Para detalhes, consulte o diretório examples/vllm
.
Tokenizador de Áudio Personalizado
O projeto introduz um novo tokenizador de áudio discretizado, operando a apenas 25 quadros por segundo, enquanto mantém ou até melhora a qualidade do áudio em comparação com tokenizadores com o dobro da taxa de bits. Este modelo é o primeiro sistema unificado treinado em dados de 24 kHz, cobrindo fala, música e eventos sonoros.
Significado do Projeto
Com o lançamento da versão de código aberto, o Higgs Audio V2 convida desenvolvedores de todo o mundo a participar na moldagem do futuro da interação humano-computador. Ao gerar sua primeira amostra, você não está apenas ouvindo fala sintética — você está experimentando o próximo estágio evolutivo da tecnologia de fala.
O Higgs Audio V2 representa um avanço significativo na tecnologia de geração de áudio, fornecendo uma ferramenta poderosa para desenvolvedores e pesquisadores explorarem e inovarem em aplicações de IA de áudio.