微软开源的前沿多人对话语音合成AI模型,支持生成最长90分钟的多达4个不同说话人的表达性对话音频

MITPythonVibeVoicemicrosoft 6.7k Last Updated: September 01, 2025

VibeVoice - 微软前沿开源语音合成框架

项目概述

VibeVoice是微软研究院开发的一个新颖的开源框架,专门用于从文本生成具有表现力的长篇多人对话音频,如播客。它解决了传统文本转语音(TTS)系统在可扩展性、说话人一致性和自然转换方面的重大挑战。

核心技术创新

连续语音标记器

VibeVoice的核心创新在于使用连续语音标记器(声学和语义),以7.5 Hz的超低帧率运行。这些标记器在显著提高处理长序列的计算效率的同时,有效保持了音频保真度。

Next-Token扩散框架

VibeVoice采用next-token扩散框架,利用大语言模型(LLM)理解文本上下文和对话流程,并使用扩散头生成高保真的声学细节。

主要特性

🎯 核心能力

  • 超长音频生成: 可合成长达90分钟的语音
  • 多人对话支持: 支持最多4个不同说话人,突破了许多现有模型1-2个说话人的限制
  • 跨语言合成: 支持英语和中文,并可进行跨语言叙述(如英语提示→中文语音)
  • 基础歌唱合成: 具备基本的歌唱合成功能

🏗️ 技术架构

VibeVoice的基础是一个1.5B参数的LLM(Qwen2.5-1.5B),集成了两个新颖的标记器——声学和语义——均设计为以低帧率(7.5Hz)运行,以实现计算效率和长序列的一致性。

技术组件:

  • 声学标记器: σ-VAE变体,具有镜像编码器-解码器结构(每个约340M参数),实现从24kHz原始音频3200倍的下采样
  • 语义标记器: 通过ASR代理任务训练,这个仅编码器架构镜像声学标记器的设计
  • 扩散解码器头: 轻量级(约123M参数)的条件扩散模块预测声学特征

模型版本

模型 上下文长度 生成长度 下载链接
VibeVoice-1.5B 64K ~90分钟 HuggingFace
VibeVoice-7B 64K ~90分钟 HuggingFace
VibeVoice-0.5B-Streaming - - 即将发布

安装与使用

环境准备

推荐使用NVIDIA Deep Learning Container管理CUDA环境:

# 启动Docker容器
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3

# 如果环境中没有flash attention,需要手动安装
pip install flash-attn --no-build-isolation

安装步骤

# 克隆项目
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/

# 安装依赖
pip install -e .
apt update && apt install ffmpeg -y

使用方法

Gradio演示界面

# 1.5B模型
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

# 7B模型
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share

从文件推理

# 单人语音
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

# 多人语音
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan

应用场景

  • 播客制作: 生成多主持人对话音频(最多4个声音),持续时间长达90分钟
  • 有声书制作: 创建情感丰富的叙述,让有声书更生动引人
  • 对话系统: 多轮对话场景中的自然语音生成
  • 内容创作: 自动化音频内容生成

技术限制

当前限制

  • 语言限制: 仅支持英语和中文
  • 非语音音频: 模型专注于语音合成,不处理背景音乐或音效
  • 重叠语音: 当前模型不支持生成重叠的对话片段

中文语音注意事项

在合成中文语音时可能遇到偶发性不稳定,建议:

  • 即使对中文文本也使用英文标点符号,最好只使用逗号和句号
  • 使用7B模型版本,其稳定性明显更好

使用责任与限制

研究目的

我们不建议在未经进一步测试和开发的情况下将VibeVoice用于商业或实际应用。此模型仅用于研究和开发目的。

潜在风险

深度伪造和虚假信息的潜力: 高质量的合成语音可能被滥用来创建令人信服的虚假音频内容,用于冒充、欺诈或传播虚假信息。用户必须确保文字稿可靠,检查内容准确性,并避免以误导性方式使用生成的内容。

联系方式

如有建议、问题或发现技术中的异常/冒犯行为,请联系:VibeVoice@microsoft.com

Star History Chart