マイクロソフトがオープンソースで公開した最先端の複数人会話音声合成AIモデル。最長90分、最大4人の異なる話者による表現力豊かな会話音声の生成をサポート。
VibeVoice - Microsoftの最先端オープンソース音声合成フレームワーク
プロジェクト概要
VibeVoiceは、Microsoft Researchが開発した斬新なオープンソースフレームワークで、ポッドキャストのような、表現力豊かな長尺の複数話者対話音声をテキストから生成することに特化しています。これは、従来型のテキスト読み上げ(TTS)システムが抱える、スケーラビリティ、話者の一貫性、自然な切り替わりといった重大な課題を解決します。
主要技術革新
連続音声トークナイザー
VibeVoiceの核となる革新は、7.5 Hzという超低フレームレートで動作する連続音声トークナイザー(音響および意味)の使用にあります。これらのトークナイザーは、長尺シーケンスの処理における計算効率を大幅に向上させつつ、音声の忠実度を効果的に維持します。
Next-Token拡散フレームワーク
VibeVoiceは、Next-Token拡散フレームワークを採用しており、大規模言語モデル(LLM)を活用してテキストのコンテキストと対話の流れを理解し、拡散ヘッドを使用して高忠実度の音響的詳細を生成します。
主な特徴
🎯 コア機能
- 超長尺音声生成: 最大90分の音声を合成可能
- 複数話者対話対応: 最大4人の異なる話者をサポートし、既存の多くのモデルが持つ1〜2人の話者制限を打破
- 多言語合成: 英語と中国語をサポートし、クロスリンガルナレーション(例:英語のプロンプト→中国語音声)も可能
- 基本的な歌唱合成: 基本的な歌唱合成機能を備える
🏗️ 技術アーキテクチャ
VibeVoiceの基盤は、1.5BパラメーターのLLM(Qwen2.5-1.5B)であり、計算効率と長尺シーケンスの一貫性を実現するために、低フレームレート(7.5Hz)で動作するように設計された2つの斬新なトークナイザー(音響および意味)が統合されています。
技術コンポーネント:
- 音響トークナイザー: ミラーリングされたエンコーダー・デコーダー構造(それぞれ約340Mパラメーター)を持つσ-VAEバリアントで、24kHzのオリジナルオーディオから3200倍のダウンサンプリングを実現
- 意味トークナイザー: ASR代理タスクで訓練された、音響トークナイザーの設計をミラーリングしたエンコーダーのみのアーキテクチャ
- 拡散デコーダーヘッド: 軽量(約123Mパラメーター)な条件付き拡散モジュールが音響特徴を予測
モデルバージョン
モデル | コンテキスト長 | 生成長 | ダウンロードリンク |
---|---|---|---|
VibeVoice-1.5B | 64K | 約90分 | HuggingFace |
VibeVoice-7B | 64K | 約90分 | HuggingFace |
VibeVoice-0.5B-Streaming | - | - | 近日公開 |
インストールと使用方法
環境準備
CUDA環境の管理にはNVIDIA Deep Learning Containerの使用を推奨します:
# Dockerコンテナを起動
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3
# 環境にFlash Attentionがない場合、手動でインストールする必要があります
pip install flash-attn --no-build-isolation
インストール手順
# プロジェクトのクローン
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/
# 依存関係のインストール
pip install -e .
apt update && apt install ffmpeg -y
使用方法
Gradioデモインターフェース
# 1.5Bモデル
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
# 7Bモデル
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share
ファイルからの推論
# 単一話者音声
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice
# 複数話者音声
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan
応用シナリオ
- ポッドキャスト制作: 最大4つの声で、最大90分間の複数話者対話音声を生成
- オーディオブック制作: 感情豊かなナレーションを作成し、オーディオブックをより生き生きとさせる
- 対話システム: 多段階対話シナリオにおける自然な音声生成
- コンテンツ作成: オーディオコンテンツ生成の自動化
技術的制約
現在の制約
- 言語制限: 英語と中国語のみをサポート
- 非音声オーディオ: モデルは音声合成に特化しており、BGMや効果音は処理しません
- 音声の重複: 現在のモデルは、重複する対話セグメントの生成をサポートしていません
中国語音声に関する注意事項
中国語音声を合成する際に、偶発的な不安定性が発生する可能性があります。以下の点を推奨します:
- 中国語テキストに対しても英語の句読点を使用し、できればコンマとピリオドのみを使用してください。
- 7Bモデルバージョンを使用すると、安定性が大幅に向上します。
利用に関する責任と制限
研究目的
VibeVoiceをさらなるテストと開発なしに商業的または実用的なアプリケーションに使用することは推奨されません。本モデルは研究開発目的のみに使用されます。
潜在的なリスク
ディープフェイクと誤情報の可能性: 高品質な合成音声は、なりすまし、詐欺、または誤情報の拡散のために、説得力のある偽のオーディオコンテンツを作成するために悪用される可能性があります。ユーザーは、テキストスクリプトの信頼性を確保し、内容の正確性を確認し、生成されたコンテンツを誤解を招く方法で使用しないようにしてください。
お問い合わせ
ご提案、ご質問、または技術における異常/不快な行動を発見された場合は、VibeVoice@microsoft.comまでご連絡ください。