Boson AI's Open-Source-Basismodell für Text-Audio, vortrainiert auf 10 Millionen Stunden Audiodaten, unterstützt ausdrucksstarke Sprachsynthese und mehrsprachige Audiogenerierung.

Apache-2.0Pythonhiggs-audioboson-ai 6.1k Last Updated: July 30, 2025

Higgs Audio V2: Detaillierte Projektbeschreibung

Projektübersicht

Higgs Audio V2 ist ein leistungsstarkes Open-Source-Audio-Grundlagenmodell von Boson AI, das auf über 10 Millionen Stunden Audiodaten und vielfältigen Textdaten vortrainiert wurde. Obwohl keine Nachtrainings oder Feinabstimmungen vorgenommen wurden, zeichnet sich Higgs Audio V2 durch die Generierung ausdrucksstarker Audiodaten aus, was auf sein tiefgreifendes Sprach- und Akustikverständnis zurückzuführen ist.

Kernfunktionen

1. Leistungsstarke Sprachsynthese

  • Unterstützung für die Generierung ausdrucksstarker Sprache
  • Unterstützung für mehrsprachige Audiogenerierung
  • Natürliche Generierung von Mehrsprecher-Dialogen
  • Automatische Prosodieanpassung für Erzählungen
  • Melodie-Summen mit geklonter Stimme
  • Gleichzeitige Generierung von Sprache und Hintergrundmusik

2. Herausragende Performance

Bei der EmergentTTS-Eval-Bewertung erreichte das Modell in den Kategorien "Emotion" und "Frage" Gewinnraten von 75,7 % bzw. 55,7 % und übertraf damit "gpt-4o-mini-tts". Gleichzeitig erzielte es auch bei traditionellen TTS-Benchmarks wie Seed-TTS Eval und dem Emotional Speech Dataset (ESD) branchenführende Leistungen.

3. Einzigartige emergente Fähigkeiten

Das Modell zeigt Fähigkeiten, die in früheren Systemen selten zu sehen waren:

  • Generierung natürlicher mehrsprachiger Mehrsprecher-Dialoge
  • Automatische Prosodieanpassung während der Erzählung
  • Melodie-Summen unter Verwendung einer geklonten Stimme
  • Gleichzeitige Generierung von Sprache und Hintergrundmusik

Technische Architektur

Wesentliche technische Innovationen

  1. Automatisierte Annotationspipeline: Nutzung mehrerer ASR-Modelle, Klangereignis-Klassifizierungsmodelle und interner Audio-Verständnismodelle zur Bereinigung und Annotation von 10 Millionen Stunden Audiodaten (genannt AudioVerse).

  2. Vereinheitlichter Audio-Tokenisierer: Ein von Grund auf neu trainierter, vereinheitlichter Audio-Tokenisierer, der semantische und akustische Merkmale erfassen kann.

  3. DualFFN-Architektur: Verbessert die Fähigkeit des LLM, akustische Token zu modellieren, bei gleichzeitig minimalem Rechenaufwand.

Umgebungskonfiguration

Empfohlene Docker-Umgebung

# Verwendung des NVIDIA Deep Learning Containers
docker run --gpus all --ipc=host --net=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm nvcr.io/nvidia/pytorch:25.02-py3 bash

Standard-Installationsmethoden

Mit Git + pip

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
pip install -r requirements.txt
pip install -e .

Mit virtueller Umgebung

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

Mit Conda

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .

Mit uv

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .

Anwendungsbeispiele

Grundlegendes Python-Code-Beispiel

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
    Message(
        role="system",
        content=system_prompt,
    ),
    Message(
        role="user",
        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
    ),
]

device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95,
    top_k=50,
    stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)

torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

Kommandozeilen-Anwendungsbeispiele

Sprachgenerierung mit Referenz-Audio

python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--ref_audio belinda \
--temperature 0.3 \
--out_path generation.wav

Ohne Referenz-Audio (Modell entscheidet automatisch über die Stimme)

python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--temperature 0.3 \
--out_path generation.wav

Generierung von Mehrsprecher-Dialogen

python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav

Generierung von Mehrsprecher-Dialogen mit bestimmten Stimmen

python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav

Leistungsbewertungsergebnisse

Traditionelle TTS-Benchmarks

SeedTTS-Eval und ESD Bewertungsergebnisse

Modell SeedTTS-Eval ESD
WER ↓ SIM ↑ WER ↓ SIM (emo2vec) ↑
Cosyvoice2 2.28 65.49 2.71 80.48
Qwen2.5-omni† 2.33 64.10 - -
ElevenLabs Multilingual V2 1.43 50.00 1.66 65.87
Higgs Audio v1 2.18 66.27 1.49 82.84
Higgs Audio v2 (base) 2.44 67.70 1.78 86.13

EmergentTTS-Eval Bewertung

Modell Emotion (%) ↑ Frage (%) ↑
Higgs Audio v2 (base) 75.71% 55.71%

Mehrsprecher-Bewertung

Das Projekt hat auch einen speziellen Mehrsprecher-Bewertungs-Benchmark entwickelt, der drei Untergruppen umfasst:

  • two-speaker-conversation: 1000 synthetische Dialoge mit zwei Sprechern
  • small talk (no ref): 250 synthetische Dialoge, gekennzeichnet durch kurze Äußerungen und begrenzte Sprecherwechsel
  • small talk (ref): 250 ähnliche synthetische Dialoge, die noch kürzere Äußerungen enthalten

Hardware-Anforderungen

Wichtiger Hinweis: Für optimale Leistung wird empfohlen, die Generierungsbeispiele auf einer GPU-Maschine mit mindestens 24 GB VRAM auszuführen.

Erweiterte Funktionen

vLLM API-Server

Das Projekt bietet auch einen OpenAI-kompatiblen API-Server, der auf der vLLM-Engine basiert, für fortgeschrittene Anwendungen mit hohem Durchsatz. Detaillierte Informationen finden Sie im Verzeichnis examples/vllm.

Benutzerdefinierter Audio-Tokenisierer

Das Projekt führt einen neuen diskretisierten Audio-Tokenisierer ein, der mit nur 25 Bildern pro Sekunde arbeitet und dabei die Audioqualität im Vergleich zu einem Tokenisierer mit doppelter Bitrate beibehält oder sogar verbessert. Dieses Modell ist das erste vereinheitlichte System, das auf 24-kHz-Daten trainiert wurde und Sprache, Musik und Klangereignisse abdeckt.

Bedeutung des Projekts

Mit der Veröffentlichung der Open-Source-Version lädt Higgs Audio V2 Entwickler weltweit ein, die Zukunft der Mensch-Computer-Interaktion mitzugestalten. Wenn Sie Ihr erstes Sample generieren, hören Sie nicht nur synthetische Sprache – Sie erleben die nächste Evolutionsstufe der Sprachtechnologie.

Higgs Audio V2 stellt einen bedeutenden Durchbruch in der Audiogenerierungstechnologie dar und bietet Entwicklern und Forschern leistungsstarke Werkzeuge zur Erforschung und Innovation von Audio-KI-Anwendungen.

Star History Chart