Boson AIがオープンソースで提供するテキスト音声基盤モデル。1000万時間の音声データで事前学習されており、表現力豊かな音声合成と多言語音声生成をサポートします。
Higgs Audio V2 プロジェクト詳細紹介
プロジェクト概要
Higgs Audio V2 は Boson AI がオープンソースとして公開している強力な音声基盤モデルであり、1000万時間以上の音声データと多様なテキストデータに基づいて事前学習されています。後学習やファインチューニングは行われていませんが、Higgs Audio V2 はその深い言語と音響の理解能力により、表現力豊かな音声生成において卓越した性能を発揮します。
コア特性
1. 強力な音声合成能力
- 表現力豊かな音声生成をサポート
- 多言語音声生成をサポート
- 自然な複数話者対話生成
- ナレーションにおける自動韻律適応
- クローン音声によるメロディのハミング
- 音声と背景音楽の同時生成
2. 卓越した性能表現
EmergentTTS-Eval 評価において、このモデルは「感情」カテゴリで75.7%、「質問」カテゴリで55.7%の勝率を獲得し、「gpt-4o-mini-tts」を上回りました。同時に、Seed-TTS Eval や感情音声データセット (ESD) といった従来のTTSベンチマークでも業界をリードする性能を達成しています。
3. 独自の創発能力
このモデルは、以前のシステムではほとんど見られなかった能力を示しています:
- 自然な多言語複数話者対話の生成
- ナレーションプロセスにおける自動韻律適応
- クローン音声を使用したメロディのハミング
- 音声と背景音楽の同時生成
技術アーキテクチャ
コア技術革新
自動アノテーションパイプライン:複数のASRモデル、音声イベント分類モデル、および内部音声理解モデルを活用し、1000万時間の音声データ(AudioVerseと呼称)をクリーンアップし、アノテーションしました。
統一音声トークナイザー:セマンティックおよび音響的特徴を捉えることができる、ゼロからトレーニングされた統一音声トークナイザー。
DualFFN アーキテクチャ:最小限の計算オーバーヘッドを維持しつつ、LLMが音響トークンをモデリングする能力を強化。
環境設定
推奨される Docker 環境
# 使用 NVIDIA Deep Learning Container
docker run --gpus all --ipc=host --net=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm nvcr.io/nvidia/pytorch:25.02-py3 bash
標準インストール方式
Git + pip を使用
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
pip install -r requirements.txt
pip install -e .
仮想環境を使用
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .
Conda を使用
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
conda create -n higgs_audio_env python=3.10
conda activate higgs_audio_env
pip install -r requirements.txt
pip install -e .
uv を使用
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .
使用例
基本的な Python コード例
from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click
MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"
system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)
messages = [
Message(
role="system",
content=system_prompt,
),
Message(
role="user",
content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
),
]
device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)
output: HiggsAudioResponse = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024,
temperature=0.3,
top_p=0.95,
top_k=50,
stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)
コマンドライン使用例
参照音声を使用して音声を生成
python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--ref_audio belinda \
--temperature 0.3 \
--out_path generation.wav
参照音声を使用しない場合(モデルが自動で音声を決定)
python3 examples/generation.py \
--transcript "The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years." \
--temperature 0.3 \
--out_path generation.wav
複数話者対話を生成
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav
指定した音声を使用して複数話者対話を生成
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav
性能評価結果
従来の TTS ベンチマーク
SeedTTS-Eval および ESD 評価結果
モデル | SeedTTS-Eval | ESD | ||
---|---|---|---|---|
WER ↓ | SIM ↑ | WER ↓ | SIM (emo2vec) ↑ | |
Cosyvoice2 | 2.28 | 65.49 | 2.71 | 80.48 |
Qwen2.5-omni† | 2.33 | 64.10 | - | - |
ElevenLabs Multilingual V2 | 1.43 | 50.00 | 1.66 | 65.87 |
Higgs Audio v1 | 2.18 | 66.27 | 1.49 | 82.84 |
Higgs Audio v2 (base) | 2.44 | 67.70 | 1.78 | 86.13 |
EmergentTTS-Eval 評価
モデル | 感情 (%) ↑ | 質問 (%) ↑ |
---|---|---|
Higgs Audio v2 (base) | 75.71% | 55.71% |
複数話者評価
このプロジェクトでは、3つのサブセットを含む専用の複数話者評価ベンチマークも設計されています:
two-speaker-conversation
:2人の話者が関わる1000の合成対話small talk (no ref)
:短い発話と限られたターンが特徴の250の合成対話small talk (ref)
:より短い発話を含む250の類似した合成対話
ハードウェア要件
重要提示:最高のパフォーマンスを得るには、少なくとも24GBのVRAMを搭載したGPUマシンで生成例を実行することをお勧めします。
高度な機能
vLLM API サーバー
プロジェクトでは、高スループットの高度な使用のために、vLLMエンジンに基づいたOpenAI互換APIサーバーも提供しています。詳細については、examples/vllm
ディレクトリを参照してください。
カスタム音声トークナイザー
プロジェクトは、1秒あたりわずか25フレームの周波数で動作しながら、2倍のビットレートのトークナイザーと比較して音声品質を維持または向上させる新しい離散化音声トークナイザーを導入しました。このモデルは、音声、音楽、音声イベントをカバーする24 kHzデータでトレーニングされた初の統一システムです。
プロジェクトの意義
オープンソース版のリリースにより、Higgs Audio V2 は世界中の開発者に人間とコンピューターのインタラクションの未来を形作ることに参加するよう呼びかけています。最初のサンプルを生成するとき、あなたは単に合成音声を聞いているだけでなく、音声技術の次の進化段階を体験しているのです。
Higgs Audio V2 は音声生成技術における重要なブレークスルーを象徴しており、開発者や研究者に音声AIアプリケーションを探求し革新するための強力なツールを提供します。