boson-ai/higgs-audioView GitHub Homepage for Latest Official Releases

Modèle de base audio-texte open source Boson AI, pré-entraîné sur 10 millions d'heures de données audio, prend en charge la synthèse vocale expressive et la génération audio multilingue.

Apache-2.0Pythonhiggs-audioboson-ai 6.1k Last Updated: July 30, 2025

Description détaillée du projet Higgs Audio V2

Aperçu du projet

Higgs Audio V2 est un puissant modèle de base audio open-source développé par Boson AI, pré-entraîné sur plus de 10 millions d'heures de données audio et une grande variété de données textuelles. Bien qu'il n'ait pas subi de post-entraînement ou de fine-tuning, Higgs Audio V2 excelle dans la génération audio expressive, grâce à sa profonde compréhension linguistique et acoustique.

Fonctionnalités clés

1. Capacités de synthèse vocale puissantes

Prise en charge de la génération vocale expressive
Prise en charge de la génération audio multilingue
Génération naturelle de dialogues multi-locuteurs
Adaptation automatique de la prosodie à la narration
Fredonnement mélodique avec voix clonée
Génération simultanée de voix et de musique de fond

2. Performances exceptionnelles

Lors de l'évaluation EmergentTTS-Eval, le modèle a obtenu des taux de victoire de 75,7 % et 55,7 % respectivement dans les catégories "Émotion" et "Question", dépassant "gpt-4o-mini-tts". Il a également atteint des performances de pointe dans l'industrie sur les benchmarks TTS traditionnels tels que Seed-TTS Eval et le jeu de données de voix émotionnelle (ESD).

3. Capacités émergentes uniques

Le modèle présente des capacités rarement vues dans les systèmes précédents :

Génération naturelle de dialogues multilingues et multi-locuteurs
Adaptation automatique de la prosodie pendant la narration
Fredonnement mélodique utilisant une voix clonée
Génération simultanée de voix et de musique de fond

Architecture technique

Innovations technologiques clés

Pipeline d'annotation automatisé : Utilise plusieurs modèles ASR, des modèles de classification d'événements sonores et des modèles internes de compréhension audio pour nettoyer et annoter 10 millions d'heures de données audio (appelées AudioVerse).
Tokeniseur audio unifié : Un tokeniseur audio unifié entraîné à partir de zéro, capable de capturer les caractéristiques sémantiques et acoustiques.
Architecture DualFFN : Améliore la capacité des LLM à modéliser les tokens acoustiques tout en maintenant une surcharge computationnelle minimale.

Configuration de l'environnement

Environnement Docker recommandé

# Utiliser le conteneur NVIDIA Deep Learning
docker run --gpus all --ipc=host --net=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm nvcr.io/nvidia/pytorch:25.02-py3 bash

Méthodes d'installation standard

Utilisation de Git + pip

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
pip install -r requirements.txt
pip install -e .

Utilisation d'un environnement virtuel

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

Utilisation de Conda

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .

Utilisation de uv

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .

Exemples d'utilisation

Exemple de code Python de base

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
    Message(
        role="system",
        content=system_prompt,
    ),
    Message(
        role="user",
        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
    ),
]

device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95,
    top_k=50,
    stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)

torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

Exemples d'utilisation en ligne de commande

Générer de la voix avec un audio de référence

python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--ref_audio belinda \
--temperature 0.3 \
--out_path generation.wav

Sans audio de référence (le modèle décide automatiquement de la voix)

python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--temperature 0.3 \
--out_path generation.wav

Générer un dialogue multi-locuteurs

python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav

Générer un dialogue multi-locuteurs avec des voix spécifiées

python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav

Résultats de l'évaluation des performances

Benchmarks TTS traditionnels

Résultats des évaluations SeedTTS-Eval et ESD

Modèle	SeedTTS-Eval		ESD
	WER ↓	SIM ↑	WER ↓	SIM (emo2vec) ↑
Cosyvoice2	2.28	65.49	2.71	80.48
Qwen2.5-omni†	2.33	64.10	-	-
ElevenLabs Multilingual V2	1.43	50.00	1.66	65.87
Higgs Audio v1	2.18	66.27	1.49	82.84
Higgs Audio v2 (base)	2.44	67.70	1.78	86.13

Évaluation EmergentTTS-Eval

Modèle	Émotion (%) ↑	Question (%) ↑
Higgs Audio v2 (base)	75.71%	55.71%

Évaluation multi-locuteurs

Le projet a également conçu un benchmark d'évaluation multi-locuteurs dédié, comprenant trois sous-ensembles :

two-speaker-conversation : 1000 dialogues synthétiques impliquant deux locuteurs
small talk (no ref) : 250 dialogues synthétiques caractérisés par des énoncés courts et un nombre limité de tours de parole
small talk (ref) : 250 dialogues synthétiques similaires, contenant des énoncés plus courts

Exigences matérielles

Important : Pour des performances optimales, il est recommandé d'exécuter les exemples de génération sur une machine GPU équipée d'au moins 24 Go de VRAM.

Fonctionnalités avancées

Serveur API vLLM

Le projet propose également un serveur API compatible OpenAI basé sur le moteur vLLM, pour une utilisation avancée à haut débit. Pour plus de détails, veuillez consulter le répertoire examples/vllm.

Tokeniseur audio personnalisé

Le projet introduit un nouveau tokeniseur audio discrétisé, fonctionnant à seulement 25 images par seconde, tout en maintenant, voire en améliorant, la qualité audio par rapport aux tokeniseurs à débit binaire deux fois supérieur. Ce modèle est le premier système unifié entraîné sur des données à 24 kHz, couvrant la parole, la musique et les événements sonores.

Signification du projet

Avec la publication de sa version open-source, Higgs Audio V2 invite les développeurs du monde entier à participer à la construction de l'avenir de l'interaction homme-machine. Lorsque vous générez votre premier échantillon, vous n'entendez pas seulement de la voix synthétique – vous expérimentez la prochaine étape de l'évolution de la technologie vocale.

Higgs Audio V2 représente une percée significative dans la technologie de génération audio, offrant aux développeurs et aux chercheurs un outil puissant pour explorer et innover dans les applications d'IA audio.