microsoft/VibeVoice View GitHub Homepage for Latest Official Releases

微软开源的前沿多人对话语音合成AI模型，支持生成最长90分钟的多达4个不同说话人的表达性对话音频

MITPythonVibeVoicemicrosoft 19.2k Last Updated: December 17, 2025

VibeVoice - 微软前沿开源语音合成框架

项目概述

VibeVoice是微软研究院开发的一个新颖的开源框架，专门用于从文本生成具有表现力的长篇多人对话音频，如播客。它解决了传统文本转语音(TTS)系统在可扩展性、说话人一致性和自然转换方面的重大挑战。

核心技术创新

连续语音标记器

VibeVoice的核心创新在于使用连续语音标记器（声学和语义），以7.5 Hz的超低帧率运行。这些标记器在显著提高处理长序列的计算效率的同时，有效保持了音频保真度。

Next-Token扩散框架

VibeVoice采用next-token扩散框架，利用大语言模型(LLM)理解文本上下文和对话流程，并使用扩散头生成高保真的声学细节。

主要特性

🎯 核心能力

超长音频生成: 可合成长达90分钟的语音
多人对话支持: 支持最多4个不同说话人，突破了许多现有模型1-2个说话人的限制
跨语言合成: 支持英语和中文，并可进行跨语言叙述（如英语提示→中文语音）
基础歌唱合成: 具备基本的歌唱合成功能

🏗️ 技术架构

VibeVoice的基础是一个1.5B参数的LLM（Qwen2.5-1.5B），集成了两个新颖的标记器——声学和语义——均设计为以低帧率（7.5Hz）运行，以实现计算效率和长序列的一致性。

技术组件:

声学标记器: σ-VAE变体，具有镜像编码器-解码器结构（每个约340M参数），实现从24kHz原始音频3200倍的下采样
语义标记器: 通过ASR代理任务训练，这个仅编码器架构镜像声学标记器的设计
扩散解码器头: 轻量级（约123M参数）的条件扩散模块预测声学特征

模型版本

模型	上下文长度	生成长度	下载链接
VibeVoice-1.5B	64K	~90分钟	HuggingFace
VibeVoice-7B	64K	~90分钟	HuggingFace
VibeVoice-0.5B-Streaming	-	-	即将发布

安装与使用

环境准备

推荐使用NVIDIA Deep Learning Container管理CUDA环境：

# 启动Docker容器
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3

# 如果环境中没有flash attention，需要手动安装
pip install flash-attn --no-build-isolation

安装步骤

# 克隆项目
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/

# 安装依赖
pip install -e .
apt update && apt install ffmpeg -y

使用方法

Gradio演示界面

# 1.5B模型
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

# 7B模型
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share

从文件推理

# 单人语音
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

# 多人语音
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan

应用场景

播客制作: 生成多主持人对话音频（最多4个声音），持续时间长达90分钟
有声书制作: 创建情感丰富的叙述，让有声书更生动引人
对话系统: 多轮对话场景中的自然语音生成
内容创作: 自动化音频内容生成

技术限制

当前限制

语言限制: 仅支持英语和中文
非语音音频: 模型专注于语音合成，不处理背景音乐或音效
重叠语音: 当前模型不支持生成重叠的对话片段

中文语音注意事项

在合成中文语音时可能遇到偶发性不稳定，建议：

即使对中文文本也使用英文标点符号，最好只使用逗号和句号
使用7B模型版本，其稳定性明显更好

使用责任与限制

研究目的

我们不建议在未经进一步测试和开发的情况下将VibeVoice用于商业或实际应用。此模型仅用于研究和开发目的。

潜在风险

深度伪造和虚假信息的潜力: 高质量的合成语音可能被滥用来创建令人信服的虚假音频内容，用于冒充、欺诈或传播虚假信息。用户必须确保文字稿可靠，检查内容准确性，并避免以误导性方式使用生成的内容。

联系方式

如有建议、问题或发现技术中的异常/冒犯行为，请联系：VibeVoice@microsoft.com