Boson AI's Open-Source-Basismodell für Text-Audio, vortrainiert auf 10 Millionen Stunden Audiodaten, unterstützt ausdrucksstarke Sprachsynthese und mehrsprachige Audiogenerierung.
Higgs Audio V2: Detaillierte Projektbeschreibung
Projektübersicht
Higgs Audio V2 ist ein leistungsstarkes Open-Source-Audio-Grundlagenmodell von Boson AI, das auf über 10 Millionen Stunden Audiodaten und vielfältigen Textdaten vortrainiert wurde. Obwohl keine Nachtrainings oder Feinabstimmungen vorgenommen wurden, zeichnet sich Higgs Audio V2 durch die Generierung ausdrucksstarker Audiodaten aus, was auf sein tiefgreifendes Sprach- und Akustikverständnis zurückzuführen ist.
Kernfunktionen
1. Leistungsstarke Sprachsynthese
- Unterstützung für die Generierung ausdrucksstarker Sprache
- Unterstützung für mehrsprachige Audiogenerierung
- Natürliche Generierung von Mehrsprecher-Dialogen
- Automatische Prosodieanpassung für Erzählungen
- Melodie-Summen mit geklonter Stimme
- Gleichzeitige Generierung von Sprache und Hintergrundmusik
2. Herausragende Performance
Bei der EmergentTTS-Eval-Bewertung erreichte das Modell in den Kategorien "Emotion" und "Frage" Gewinnraten von 75,7 % bzw. 55,7 % und übertraf damit "gpt-4o-mini-tts". Gleichzeitig erzielte es auch bei traditionellen TTS-Benchmarks wie Seed-TTS Eval und dem Emotional Speech Dataset (ESD) branchenführende Leistungen.
3. Einzigartige emergente Fähigkeiten
Das Modell zeigt Fähigkeiten, die in früheren Systemen selten zu sehen waren:
- Generierung natürlicher mehrsprachiger Mehrsprecher-Dialoge
- Automatische Prosodieanpassung während der Erzählung
- Melodie-Summen unter Verwendung einer geklonten Stimme
- Gleichzeitige Generierung von Sprache und Hintergrundmusik
Technische Architektur
Wesentliche technische Innovationen
Automatisierte Annotationspipeline: Nutzung mehrerer ASR-Modelle, Klangereignis-Klassifizierungsmodelle und interner Audio-Verständnismodelle zur Bereinigung und Annotation von 10 Millionen Stunden Audiodaten (genannt AudioVerse).
Vereinheitlichter Audio-Tokenisierer: Ein von Grund auf neu trainierter, vereinheitlichter Audio-Tokenisierer, der semantische und akustische Merkmale erfassen kann.
DualFFN-Architektur: Verbessert die Fähigkeit des LLM, akustische Token zu modellieren, bei gleichzeitig minimalem Rechenaufwand.
Umgebungskonfiguration
Empfohlene Docker-Umgebung
# Verwendung des NVIDIA Deep Learning Containers
docker run --gpus all --ipc=host --net=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm nvcr.io/nvidia/pytorch:25.02-py3 bash
Standard-Installationsmethoden
Mit Git + pip
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
pip install -r requirements.txt
pip install -e .
Mit virtueller Umgebung
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .
Mit Conda
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .
Mit uv
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .
Anwendungsbeispiele
Grundlegendes Python-Code-Beispiel
from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click
MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"
system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)
messages = [
Message(
role="system",
content=system_prompt,
),
Message(
role="user",
content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
),
]
device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)
output: HiggsAudioResponse = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024,
temperature=0.3,
top_p=0.95,
top_k=50,
stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)
Kommandozeilen-Anwendungsbeispiele
Sprachgenerierung mit Referenz-Audio
python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--ref_audio belinda \
--temperature 0.3 \
--out_path generation.wav
Ohne Referenz-Audio (Modell entscheidet automatisch über die Stimme)
python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--temperature 0.3 \
--out_path generation.wav
Generierung von Mehrsprecher-Dialogen
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav
Generierung von Mehrsprecher-Dialogen mit bestimmten Stimmen
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav
Leistungsbewertungsergebnisse
Traditionelle TTS-Benchmarks
SeedTTS-Eval und ESD Bewertungsergebnisse
Modell | SeedTTS-Eval | ESD | ||
---|---|---|---|---|
WER ↓ | SIM ↑ | WER ↓ | SIM (emo2vec) ↑ | |
Cosyvoice2 | 2.28 | 65.49 | 2.71 | 80.48 |
Qwen2.5-omni† | 2.33 | 64.10 | - | - |
ElevenLabs Multilingual V2 | 1.43 | 50.00 | 1.66 | 65.87 |
Higgs Audio v1 | 2.18 | 66.27 | 1.49 | 82.84 |
Higgs Audio v2 (base) | 2.44 | 67.70 | 1.78 | 86.13 |
EmergentTTS-Eval Bewertung
Modell | Emotion (%) ↑ | Frage (%) ↑ |
---|---|---|
Higgs Audio v2 (base) | 75.71% | 55.71% |
Mehrsprecher-Bewertung
Das Projekt hat auch einen speziellen Mehrsprecher-Bewertungs-Benchmark entwickelt, der drei Untergruppen umfasst:
two-speaker-conversation
: 1000 synthetische Dialoge mit zwei Sprechernsmall talk (no ref)
: 250 synthetische Dialoge, gekennzeichnet durch kurze Äußerungen und begrenzte Sprecherwechselsmall talk (ref)
: 250 ähnliche synthetische Dialoge, die noch kürzere Äußerungen enthalten
Hardware-Anforderungen
Wichtiger Hinweis: Für optimale Leistung wird empfohlen, die Generierungsbeispiele auf einer GPU-Maschine mit mindestens 24 GB VRAM auszuführen.
Erweiterte Funktionen
vLLM API-Server
Das Projekt bietet auch einen OpenAI-kompatiblen API-Server, der auf der vLLM-Engine basiert, für fortgeschrittene Anwendungen mit hohem Durchsatz. Detaillierte Informationen finden Sie im Verzeichnis examples/vllm
.
Benutzerdefinierter Audio-Tokenisierer
Das Projekt führt einen neuen diskretisierten Audio-Tokenisierer ein, der mit nur 25 Bildern pro Sekunde arbeitet und dabei die Audioqualität im Vergleich zu einem Tokenisierer mit doppelter Bitrate beibehält oder sogar verbessert. Dieses Modell ist das erste vereinheitlichte System, das auf 24-kHz-Daten trainiert wurde und Sprache, Musik und Klangereignisse abdeckt.
Bedeutung des Projekts
Mit der Veröffentlichung der Open-Source-Version lädt Higgs Audio V2 Entwickler weltweit ein, die Zukunft der Mensch-Computer-Interaktion mitzugestalten. Wenn Sie Ihr erstes Sample generieren, hören Sie nicht nur synthetische Sprache – Sie erleben die nächste Evolutionsstufe der Sprachtechnologie.
Higgs Audio V2 stellt einen bedeutenden Durchbruch in der Audiogenerierungstechnologie dar und bietet Entwicklern und Forschern leistungsstarke Werkzeuge zur Erforschung und Innovation von Audio-KI-Anwendungen.