wanaigc/ComfyUI-Qwen3-TTS View GitHub Homepage for Latest Official Releases
先进的开源TTS模型系列,支持多语言语音生成、3秒语音克隆和超低延迟流式合成
PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026
Qwen3-TTS:先进的多语言文本转语音模型系列
项目概述
Qwen3-TTS 是由阿里云 Qwen 团队开发的开源先进文本转语音(TTS)模型系列。该综合性 TTS 套件于 2026 年 1 月发布,代表了语音合成技术的一项重大进步,在语音生成、克隆和实时流式合成方面提供了前所未有的能力。
主要特性和功能
核心功能
- 多语言支持:原生支持中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文等 10 种主要语言。
- 语音克隆:最先进的 3 秒快速语音克隆,只需极少的音频输入。
- 语音设计:使用自然语言描述创建全新的语音。
- 流式生成:超低延迟流式传输,首包发出时间仅为 97 毫秒。
- 自定义语音控制:对音色、情感和韵律等声学属性进行精细控制。
技术架构
双轨语言模型架构
Qwen3-TTS 采用创新的双轨混合流式生成架构,支持流式和非流式生成模式。这种设计使得在输入单个字符后即可立即输出音频,非常适合实时交互式应用。
两种语音分词器
Qwen-TTS-Tokenizer-25Hz:
- 单码本编解码器,强调语义内容。
- 与 Qwen-Audio 模型无缝集成。
- 支持通过块状 DiT 进行流式波形重建。
Qwen-TTS-Tokenizer-12Hz:
- 多码本设计,具有 16 层,工作频率为 12.5 Hz。
- 极低的比特率,实现超低延迟流式传输。
- 轻量级因果卷积网络,用于高效语音重建。
模型变体
可用模型
- Qwen3-TTS-12Hz-1.7B-Base:用于语音克隆和微调的基础模型。
- Qwen3-TTS-12Hz-1.7B-CustomVoice:预配置了 9 种高级音色。
- Qwen3-TTS-12Hz-1.7B-VoiceDesign:专门用于基于描述的语音创建。
- Qwen3-TTS-12Hz-0.6B-CustomVoice:具有自定义语音功能的轻量级版本。
- Qwen3-TTS-12Hz-0.6B-Base:紧凑型基础模型。
训练数据
- 在超过 500 万小时的高质量语音数据上进行训练。
- 全面覆盖 10 种语言和多种方言。
- 先进的上下文理解能力,可自适应控制语调和情感表达。
技术创新
先进的语音表示
- 语义-声学解耦:将高级语义内容与声学细节分离。
- 多令牌预测 (MTP):实现从第一个编解码器帧即时解码语音。
- 基于 GAN 的训练:生成器在原始波形上运行,判别器则提高自然度。
流式传输能力
- 因果架构:全因果特征编码器和解码器,用于实时处理。
- 实时合成:端到端合成延迟低至 97 毫秒。
- 增量解码:从离散令牌逐步重建音频。
安装和使用
快速安装
# 创建隔离环境
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# 通过 PyPI 安装
pip install qwen-tts
# 可选:FlashAttention 2 用于内存优化
pip install flash-attn
开发安装
git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .
基本用法示例
from qwen_tts import Qwen3TTSModel
import torch
# 加载模型
tts = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-1.7B-Base",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2"
)
# 生成语音
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)
性能和基准测试
最先进的结果
- 在 TTS 多语言测试集上表现优异。
- 在 InstructTTSEval 基准测试中获得优异分数。
- 在长语音生成任务中取得杰出成果。
- 对嘈杂的输入文本具有鲁棒性。
质量指标
- 高保真语音重建。
- 自然的韵律和情感表达。
- 跨语言一致的语音质量。
- 流式模式下伪影极少。
集成和部署
平台支持
- vLLM-Omni:官方零日支持部署和推理。
- ComfyUI:多个社区实现用于工作流集成。
- Hugging Face:直接的模型托管和推理 API。
- DashScope API:阿里云的优化部署平台。
硬件要求
- 推荐使用兼容 CUDA 的 GPU。
- 需要兼容 FlashAttention 2 的硬件以获得最佳性能。
- 支持 torch.float16 或 torch.bfloat16 精度。
社区和生态系统
开源承诺
- 在 Apache 2.0 许可下发布。
- 提供完整的模型权重和分词器。
- 提供全面的文档和示例。
- 支持活跃的社区开发。
社区集成
- 多个 ComfyUI 自定义节点实现。
- 第三方包装库和工具。
- 与流行的机器学习框架集成。
- 大量的示例代码和教程。
研究与开发
技术论文
该项目附带一份全面的技术报告(arXiv:2601.15621),详细介绍了架构、训练方法和性能评估。
未来路线图
- 增强的在线服务能力。
- 增加语言支持。
- 优化流式传输性能。
- 扩展与多模态 AI 系统的集成。
结论
Qwen3-TTS 代表了开源文本转语音技术的一大飞跃。凭借其多语言支持、超低延迟流式传输、先进的语音克隆能力以及在各种场景下的强大性能,它为可访问的高质量语音合成树立了新标准。该项目对开源开发和全面文档的承诺,使其成为研究人员、开发人员和寻求最先进 TTS 能力的组织的绝佳选择。