Modèle de base audio-texte open source Boson AI, pré-entraîné sur 10 millions d'heures de données audio, prend en charge la synthèse vocale expressive et la génération audio multilingue.
Description détaillée du projet Higgs Audio V2
Aperçu du projet
Higgs Audio V2 est un puissant modèle de base audio open-source développé par Boson AI, pré-entraîné sur plus de 10 millions d'heures de données audio et une grande variété de données textuelles. Bien qu'il n'ait pas subi de post-entraînement ou de fine-tuning, Higgs Audio V2 excelle dans la génération audio expressive, grâce à sa profonde compréhension linguistique et acoustique.
Fonctionnalités clés
1. Capacités de synthèse vocale puissantes
- Prise en charge de la génération vocale expressive
- Prise en charge de la génération audio multilingue
- Génération naturelle de dialogues multi-locuteurs
- Adaptation automatique de la prosodie à la narration
- Fredonnement mélodique avec voix clonée
- Génération simultanée de voix et de musique de fond
2. Performances exceptionnelles
Lors de l'évaluation EmergentTTS-Eval, le modèle a obtenu des taux de victoire de 75,7 % et 55,7 % respectivement dans les catégories "Émotion" et "Question", dépassant "gpt-4o-mini-tts". Il a également atteint des performances de pointe dans l'industrie sur les benchmarks TTS traditionnels tels que Seed-TTS Eval et le jeu de données de voix émotionnelle (ESD).
3. Capacités émergentes uniques
Le modèle présente des capacités rarement vues dans les systèmes précédents :
- Génération naturelle de dialogues multilingues et multi-locuteurs
- Adaptation automatique de la prosodie pendant la narration
- Fredonnement mélodique utilisant une voix clonée
- Génération simultanée de voix et de musique de fond
Architecture technique
Innovations technologiques clés
Pipeline d'annotation automatisé : Utilise plusieurs modèles ASR, des modèles de classification d'événements sonores et des modèles internes de compréhension audio pour nettoyer et annoter 10 millions d'heures de données audio (appelées AudioVerse).
Tokeniseur audio unifié : Un tokeniseur audio unifié entraîné à partir de zéro, capable de capturer les caractéristiques sémantiques et acoustiques.
Architecture DualFFN : Améliore la capacité des LLM à modéliser les tokens acoustiques tout en maintenant une surcharge computationnelle minimale.
Configuration de l'environnement
Environnement Docker recommandé
# Utiliser le conteneur NVIDIA Deep Learning
docker run --gpus all --ipc=host --net=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm nvcr.io/nvidia/pytorch:25.02-py3 bash
Méthodes d'installation standard
Utilisation de Git + pip
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
pip install -r requirements.txt
pip install -e .
Utilisation d'un environnement virtuel
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .
Utilisation de Conda
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .
Utilisation de uv
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .
Exemples d'utilisation
Exemple de code Python de base
from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click
MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"
system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)
messages = [
Message(
role="system",
content=system_prompt,
),
Message(
role="user",
content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
),
]
device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)
output: HiggsAudioResponse = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024,
temperature=0.3,
top_p=0.95,
top_k=50,
stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)
Exemples d'utilisation en ligne de commande
Générer de la voix avec un audio de référence
python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--ref_audio belinda \
--temperature 0.3 \
--out_path generation.wav
Sans audio de référence (le modèle décide automatiquement de la voix)
python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--temperature 0.3 \
--out_path generation.wav
Générer un dialogue multi-locuteurs
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav
Générer un dialogue multi-locuteurs avec des voix spécifiées
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav
Résultats de l'évaluation des performances
Benchmarks TTS traditionnels
Résultats des évaluations SeedTTS-Eval et ESD
Modèle | SeedTTS-Eval | ESD | ||
---|---|---|---|---|
WER ↓ | SIM ↑ | WER ↓ | SIM (emo2vec) ↑ | |
Cosyvoice2 | 2.28 | 65.49 | 2.71 | 80.48 |
Qwen2.5-omni† | 2.33 | 64.10 | - | - |
ElevenLabs Multilingual V2 | 1.43 | 50.00 | 1.66 | 65.87 |
Higgs Audio v1 | 2.18 | 66.27 | 1.49 | 82.84 |
Higgs Audio v2 (base) | 2.44 | 67.70 | 1.78 | 86.13 |
Évaluation EmergentTTS-Eval
Modèle | Émotion (%) ↑ | Question (%) ↑ |
---|---|---|
Higgs Audio v2 (base) | 75.71% | 55.71% |
Évaluation multi-locuteurs
Le projet a également conçu un benchmark d'évaluation multi-locuteurs dédié, comprenant trois sous-ensembles :
two-speaker-conversation
: 1000 dialogues synthétiques impliquant deux locuteurssmall talk (no ref)
: 250 dialogues synthétiques caractérisés par des énoncés courts et un nombre limité de tours de parolesmall talk (ref)
: 250 dialogues synthétiques similaires, contenant des énoncés plus courts
Exigences matérielles
Important : Pour des performances optimales, il est recommandé d'exécuter les exemples de génération sur une machine GPU équipée d'au moins 24 Go de VRAM.
Fonctionnalités avancées
Serveur API vLLM
Le projet propose également un serveur API compatible OpenAI basé sur le moteur vLLM, pour une utilisation avancée à haut débit. Pour plus de détails, veuillez consulter le répertoire examples/vllm
.
Tokeniseur audio personnalisé
Le projet introduit un nouveau tokeniseur audio discrétisé, fonctionnant à seulement 25 images par seconde, tout en maintenant, voire en améliorant, la qualité audio par rapport aux tokeniseurs à débit binaire deux fois supérieur. Ce modèle est le premier système unifié entraîné sur des données à 24 kHz, couvrant la parole, la musique et les événements sonores.
Signification du projet
Avec la publication de sa version open-source, Higgs Audio V2 invite les développeurs du monde entier à participer à la construction de l'avenir de l'interaction homme-machine. Lorsque vous générez votre premier échantillon, vous n'entendez pas seulement de la voix synthétique – vous expérimentez la prochaine étape de l'évolution de la technologie vocale.
Higgs Audio V2 représente une percée significative dans la technologie de génération audio, offrant aux développeurs et aux chercheurs un outil puissant pour explorer et innover dans les applications d'IA audio.