microsoft/VibeVoice View GitHub Homepage for Latest Official Releases

微軟開源的前沿多人對話語音合成AI模型，支持生成最長90分鐘的多達4個不同說話人的表達性對話音訊

MITPythonVibeVoicemicrosoft 19.2k Last Updated: December 17, 2025

VibeVoice - 微軟前沿開源語音合成框架

專案概述

VibeVoice是微軟研究院開發的一個新穎的開源框架，專門用於從文本生成具有表現力的長篇多人對話音訊，如播客。它解決了傳統文本轉語音(TTS)系統在可擴展性、說話人一致性和自然轉換方面的重大挑戰。

核心技術創新

連續語音標記器

VibeVoice的核心創新在於使用連續語音標記器（聲學和語義），以7.5 Hz的超低幀率運行。這些標記器在顯著提高處理長序列的計算效率的同時，有效保持了音訊保真度。

Next-Token擴散框架

VibeVoice採用next-token擴散框架，利用大語言模型(LLM)理解文本上下文和對話流程，並使用擴散頭生成高保真的聲學細節。

主要特性

🎯 核心能力

超長音訊生成: 可合成長達90分鐘的語音
多人對話支援: 支援最多4個不同說話人，突破了許多現有模型1-2個說話人的限制
跨語言合成: 支援英語和中文，並可進行跨語言敘述（如英語提示→中文語音）
基礎歌唱合成: 具備基礎的歌唱合成功能

🏗️ 技術架構

VibeVoice的基礎是一個1.5B參數的LLM（Qwen2.5-1.5B），集成了兩個新穎的標記器——聲學和語義——均設計為以低幀率（7.5Hz）運行，以實現計算效率和長序列的一致性。

技術組件:

聲學標記器: σ-VAE變體，具有鏡像編碼器-解碼器結構（每個約340M參數），實現從24kHz原始音訊3200倍的下採樣
語義標記器: 通過ASR代理任務訓練，這個僅編碼器架構鏡像聲學標記器的設計
擴散解碼器頭: 輕量級（約123M參數）的條件擴散模組預測聲學特徵

模型版本

模型	上下文長度	生成長度	下載連結
VibeVoice-1.5B	64K	~90分鐘	HuggingFace
VibeVoice-7B	64K	~90分鐘	HuggingFace
VibeVoice-0.5B-Streaming	-	-	即將發布

安裝與使用

環境準備

推薦使用NVIDIA Deep Learning Container管理CUDA環境：

# 啟動Docker容器
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3

# 如果環境中沒有flash attention，需要手動安裝
pip install flash-attn --no-build-isolation

安裝步驟

# 克隆專案
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/

# 安裝依賴
pip install -e .
apt update && apt install ffmpeg -y

使用方法

Gradio演示介面

# 1.5B模型
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

# 7B模型
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share

從檔案推斷

# 單人語音
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

# 多人語音
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan

應用場景

播客製作: 生成多主持人對話音訊（最多4個聲音），持續時間長達90分鐘
有聲書製作: 創建情感豐富的敘述，讓有聲書更生動引人
對話系統: 多輪對話場景中的自然語音生成
內容創作: 自動化音訊內容生成

技術限制

目前限制

語言限制: 僅支援英語和中文
非語音音訊: 模型專注於語音合成，不處理背景音樂或音效
重疊語音: 目前模型不支援生成重疊的對話片段

中文語音注意事項

在合成中文語音時可能遇到偶發性不穩定，建議：

即使對中文文本也使用英文標點符號，最好只使用逗號和句號
使用7B模型版本，其穩定性明顯更好

使用責任與限制

研究目的

我們不建議在未經進一步測試和開發的情況下將VibeVoice用於商業或實際應用。此模型僅用於研究和開發目的。

潛在風險

深度偽造和虛假資訊的潛力: 高品質的合成語音可能被濫用來創建令人信服的虛假音訊內容，用於冒充、詐欺或傳播虛假資訊。用戶必須確保文字稿可靠，檢查內容準確性，並避免以誤導性方式使用生成的內容。

聯繫方式

如有建議、問題或發現技術中的異常/冒犯行為，請聯繫：VibeVoice@microsoft.com