microsoft/VibeVoiceView GitHub Homepage for Latest Official Releases
微軟開源的前沿多人對話語音合成AI模型,支持生成最長90分鐘的多達4個不同說話人的表達性對話音訊
MITPythonVibeVoicemicrosoft 6.7k Last Updated: September 01, 2025
VibeVoice - 微軟前沿開源語音合成框架
專案概述
VibeVoice是微軟研究院開發的一個新穎的開源框架,專門用於從文本生成具有表現力的長篇多人對話音訊,如播客。它解決了傳統文本轉語音(TTS)系統在可擴展性、說話人一致性和自然轉換方面的重大挑戰。
核心技術創新
連續語音標記器
VibeVoice的核心創新在於使用連續語音標記器(聲學和語義),以7.5 Hz的超低幀率運行。這些標記器在顯著提高處理長序列的計算效率的同時,有效保持了音訊保真度。
Next-Token擴散框架
VibeVoice採用next-token擴散框架,利用大語言模型(LLM)理解文本上下文和對話流程,並使用擴散頭生成高保真的聲學細節。
主要特性
🎯 核心能力
- 超長音訊生成: 可合成長達90分鐘的語音
- 多人對話支援: 支援最多4個不同說話人,突破了許多現有模型1-2個說話人的限制
- 跨語言合成: 支援英語和中文,並可進行跨語言敘述(如英語提示→中文語音)
- 基礎歌唱合成: 具備基礎的歌唱合成功能
🏗️ 技術架構
VibeVoice的基礎是一個1.5B參數的LLM(Qwen2.5-1.5B),集成了兩個新穎的標記器——聲學和語義——均設計為以低幀率(7.5Hz)運行,以實現計算效率和長序列的一致性。
技術組件:
- 聲學標記器: σ-VAE變體,具有鏡像編碼器-解碼器結構(每個約340M參數),實現從24kHz原始音訊3200倍的下採樣
- 語義標記器: 通過ASR代理任務訓練,這個僅編碼器架構鏡像聲學標記器的設計
- 擴散解碼器頭: 輕量級(約123M參數)的條件擴散模組預測聲學特徵
模型版本
模型 | 上下文長度 | 生成長度 | 下載連結 |
---|---|---|---|
VibeVoice-1.5B | 64K | ~90分鐘 | HuggingFace |
VibeVoice-7B | 64K | ~90分鐘 | HuggingFace |
VibeVoice-0.5B-Streaming | - | - | 即將發布 |
安裝與使用
環境準備
推薦使用NVIDIA Deep Learning Container管理CUDA環境:
# 啟動Docker容器
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3
# 如果環境中沒有flash attention,需要手動安裝
pip install flash-attn --no-build-isolation
安裝步驟
# 克隆專案
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/
# 安裝依賴
pip install -e .
apt update && apt install ffmpeg -y
使用方法
Gradio演示介面
# 1.5B模型
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
# 7B模型
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share
從檔案推斷
# 單人語音
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice
# 多人語音
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan
應用場景
- 播客製作: 生成多主持人對話音訊(最多4個聲音),持續時間長達90分鐘
- 有聲書製作: 創建情感豐富的敘述,讓有聲書更生動引人
- 對話系統: 多輪對話場景中的自然語音生成
- 內容創作: 自動化音訊內容生成
技術限制
目前限制
- 語言限制: 僅支援英語和中文
- 非語音音訊: 模型專注於語音合成,不處理背景音樂或音效
- 重疊語音: 目前模型不支援生成重疊的對話片段
中文語音注意事項
在合成中文語音時可能遇到偶發性不穩定,建議:
- 即使對中文文本也使用英文標點符號,最好只使用逗號和句號
- 使用7B模型版本,其穩定性明顯更好
使用責任與限制
研究目的
我們不建議在未經進一步測試和開發的情況下將VibeVoice用於商業或實際應用。此模型僅用於研究和開發目的。
潛在風險
深度偽造和虛假資訊的潛力: 高品質的合成語音可能被濫用來創建令人信服的虛假音訊內容,用於冒充、詐欺或傳播虛假資訊。用戶必須確保文字稿可靠,檢查內容準確性,並避免以誤導性方式使用生成的內容。
聯繫方式
如有建議、問題或發現技術中的異常/冒犯行為,請聯繫:VibeVoice@microsoft.com