wanaigc/ComfyUI-Qwen3-TTS View GitHub Homepage for Latest Official Releases

先进的开源TTS模型系列，支持多语言语音生成、3秒语音克隆和超低延迟流式合成

PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026

Qwen3-TTS：先进的多语言文本转语音模型系列

项目概述

Qwen3-TTS 是由阿里云 Qwen 团队开发的开源先进文本转语音（TTS）模型系列。该综合性 TTS 套件于 2026 年 1 月发布，代表了语音合成技术的一项重大进步，在语音生成、克隆和实时流式合成方面提供了前所未有的能力。

主要特性和功能

核心功能

多语言支持：原生支持中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文等 10 种主要语言。
语音克隆：最先进的 3 秒快速语音克隆，只需极少的音频输入。
语音设计：使用自然语言描述创建全新的语音。
流式生成：超低延迟流式传输，首包发出时间仅为 97 毫秒。
自定义语音控制：对音色、情感和韵律等声学属性进行精细控制。

技术架构

双轨语言模型架构

Qwen3-TTS 采用创新的双轨混合流式生成架构，支持流式和非流式生成模式。这种设计使得在输入单个字符后即可立即输出音频，非常适合实时交互式应用。

两种语音分词器

Qwen-TTS-Tokenizer-25Hz：
- 单码本编解码器，强调语义内容。
- 与 Qwen-Audio 模型无缝集成。
- 支持通过块状 DiT 进行流式波形重建。
Qwen-TTS-Tokenizer-12Hz：
- 多码本设计，具有 16 层，工作频率为 12.5 Hz。
- 极低的比特率，实现超低延迟流式传输。
- 轻量级因果卷积网络，用于高效语音重建。

模型变体

可用模型

Qwen3-TTS-12Hz-1.7B-Base：用于语音克隆和微调的基础模型。
Qwen3-TTS-12Hz-1.7B-CustomVoice：预配置了 9 种高级音色。
Qwen3-TTS-12Hz-1.7B-VoiceDesign：专门用于基于描述的语音创建。
Qwen3-TTS-12Hz-0.6B-CustomVoice：具有自定义语音功能的轻量级版本。
Qwen3-TTS-12Hz-0.6B-Base：紧凑型基础模型。

训练数据

在超过 500 万小时的高质量语音数据上进行训练。
全面覆盖 10 种语言和多种方言。
先进的上下文理解能力，可自适应控制语调和情感表达。

技术创新

先进的语音表示

语义-声学解耦：将高级语义内容与声学细节分离。
多令牌预测 (MTP)：实现从第一个编解码器帧即时解码语音。
基于 GAN 的训练：生成器在原始波形上运行，判别器则提高自然度。

流式传输能力

因果架构：全因果特征编码器和解码器，用于实时处理。
实时合成：端到端合成延迟低至 97 毫秒。
增量解码：从离散令牌逐步重建音频。

安装和使用

快速安装

# 创建隔离环境
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# 通过 PyPI 安装
pip install qwen-tts

# 可选：FlashAttention 2 用于内存优化
pip install flash-attn

开发安装

git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .

基本用法示例

from qwen_tts import Qwen3TTSModel
import torch

# 加载模型
tts = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)

# 生成语音
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)

性能和基准测试

最先进的结果

在 TTS 多语言测试集上表现优异。
在 InstructTTSEval 基准测试中获得优异分数。
在长语音生成任务中取得杰出成果。
对嘈杂的输入文本具有鲁棒性。

质量指标

高保真语音重建。
自然的韵律和情感表达。
跨语言一致的语音质量。
流式模式下伪影极少。

集成和部署

平台支持

vLLM-Omni：官方零日支持部署和推理。
ComfyUI：多个社区实现用于工作流集成。
Hugging Face：直接的模型托管和推理 API。
DashScope API：阿里云的优化部署平台。

硬件要求

推荐使用兼容 CUDA 的 GPU。
需要兼容 FlashAttention 2 的硬件以获得最佳性能。
支持 torch.float16 或 torch.bfloat16 精度。

社区和生态系统

开源承诺

在 Apache 2.0 许可下发布。
提供完整的模型权重和分词器。
提供全面的文档和示例。
支持活跃的社区开发。

社区集成

多个 ComfyUI 自定义节点实现。
第三方包装库和工具。
与流行的机器学习框架集成。
大量的示例代码和教程。

研究与开发

技术论文

该项目附带一份全面的技术报告（arXiv:2601.15621），详细介绍了架构、训练方法和性能评估。

未来路线图

增强的在线服务能力。
增加语言支持。
优化流式传输性能。
扩展与多模态 AI 系统的集成。

结论

Qwen3-TTS 代表了开源文本转语音技术的一大飞跃。凭借其多语言支持、超低延迟流式传输、先进的语音克隆能力以及在各种场景下的强大性能，它为可访问的高质量语音合成树立了新标准。该项目对开源开发和全面文档的承诺，使其成为研究人员、开发人员和寻求最先进 TTS 能力的组织的绝佳选择。