微軟開源的前沿多人對話語音合成AI模型,支持生成最長90分鐘的多達4個不同說話人的表達性對話音訊

MITPythonVibeVoicemicrosoft 6.7k Last Updated: September 01, 2025

VibeVoice - 微軟前沿開源語音合成框架

專案概述

VibeVoice是微軟研究院開發的一個新穎的開源框架,專門用於從文本生成具有表現力的長篇多人對話音訊,如播客。它解決了傳統文本轉語音(TTS)系統在可擴展性、說話人一致性和自然轉換方面的重大挑戰。

核心技術創新

連續語音標記器

VibeVoice的核心創新在於使用連續語音標記器(聲學和語義),以7.5 Hz的超低幀率運行。這些標記器在顯著提高處理長序列的計算效率的同時,有效保持了音訊保真度。

Next-Token擴散框架

VibeVoice採用next-token擴散框架,利用大語言模型(LLM)理解文本上下文和對話流程,並使用擴散頭生成高保真的聲學細節。

主要特性

🎯 核心能力

  • 超長音訊生成: 可合成長達90分鐘的語音
  • 多人對話支援: 支援最多4個不同說話人,突破了許多現有模型1-2個說話人的限制
  • 跨語言合成: 支援英語和中文,並可進行跨語言敘述(如英語提示→中文語音)
  • 基礎歌唱合成: 具備基礎的歌唱合成功能

🏗️ 技術架構

VibeVoice的基礎是一個1.5B參數的LLM(Qwen2.5-1.5B),集成了兩個新穎的標記器——聲學和語義——均設計為以低幀率(7.5Hz)運行,以實現計算效率和長序列的一致性。

技術組件:

  • 聲學標記器: σ-VAE變體,具有鏡像編碼器-解碼器結構(每個約340M參數),實現從24kHz原始音訊3200倍的下採樣
  • 語義標記器: 通過ASR代理任務訓練,這個僅編碼器架構鏡像聲學標記器的設計
  • 擴散解碼器頭: 輕量級(約123M參數)的條件擴散模組預測聲學特徵

模型版本

模型 上下文長度 生成長度 下載連結
VibeVoice-1.5B 64K ~90分鐘 HuggingFace
VibeVoice-7B 64K ~90分鐘 HuggingFace
VibeVoice-0.5B-Streaming - - 即將發布

安裝與使用

環境準備

推薦使用NVIDIA Deep Learning Container管理CUDA環境:

# 啟動Docker容器
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3

# 如果環境中沒有flash attention,需要手動安裝
pip install flash-attn --no-build-isolation

安裝步驟

# 克隆專案
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/

# 安裝依賴
pip install -e .
apt update && apt install ffmpeg -y

使用方法

Gradio演示介面

# 1.5B模型
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

# 7B模型
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share

從檔案推斷

# 單人語音
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

# 多人語音
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan

應用場景

  • 播客製作: 生成多主持人對話音訊(最多4個聲音),持續時間長達90分鐘
  • 有聲書製作: 創建情感豐富的敘述,讓有聲書更生動引人
  • 對話系統: 多輪對話場景中的自然語音生成
  • 內容創作: 自動化音訊內容生成

技術限制

目前限制

  • 語言限制: 僅支援英語和中文
  • 非語音音訊: 模型專注於語音合成,不處理背景音樂或音效
  • 重疊語音: 目前模型不支援生成重疊的對話片段

中文語音注意事項

在合成中文語音時可能遇到偶發性不穩定,建議:

  • 即使對中文文本也使用英文標點符號,最好只使用逗號和句號
  • 使用7B模型版本,其穩定性明顯更好

使用責任與限制

研究目的

我們不建議在未經進一步測試和開發的情況下將VibeVoice用於商業或實際應用。此模型僅用於研究和開發目的。

潛在風險

深度偽造和虛假資訊的潛力: 高品質的合成語音可能被濫用來創建令人信服的虛假音訊內容,用於冒充、詐欺或傳播虛假資訊。用戶必須確保文字稿可靠,檢查內容準確性,並避免以誤導性方式使用生成的內容。

聯繫方式

如有建議、問題或發現技術中的異常/冒犯行為,請聯繫:VibeVoice@microsoft.com

Star History Chart