先进的开源TTS模型系列,支持多语言语音生成、3秒语音克隆和超低延迟流式合成

PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026

Qwen3-TTS:先进的多语言文本转语音模型系列

项目概述

Qwen3-TTS 是由阿里云 Qwen 团队开发的开源先进文本转语音(TTS)模型系列。该综合性 TTS 套件于 2026 年 1 月发布,代表了语音合成技术的一项重大进步,在语音生成、克隆和实时流式合成方面提供了前所未有的能力。

主要特性和功能

核心功能

  • 多语言支持:原生支持中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文等 10 种主要语言。
  • 语音克隆:最先进的 3 秒快速语音克隆,只需极少的音频输入。
  • 语音设计:使用自然语言描述创建全新的语音。
  • 流式生成:超低延迟流式传输,首包发出时间仅为 97 毫秒。
  • 自定义语音控制:对音色、情感和韵律等声学属性进行精细控制。

技术架构

双轨语言模型架构

Qwen3-TTS 采用创新的双轨混合流式生成架构,支持流式和非流式生成模式。这种设计使得在输入单个字符后即可立即输出音频,非常适合实时交互式应用。

两种语音分词器

  1. Qwen-TTS-Tokenizer-25Hz

    • 单码本编解码器,强调语义内容。
    • 与 Qwen-Audio 模型无缝集成。
    • 支持通过块状 DiT 进行流式波形重建。
  2. Qwen-TTS-Tokenizer-12Hz

    • 多码本设计,具有 16 层,工作频率为 12.5 Hz。
    • 极低的比特率,实现超低延迟流式传输。
    • 轻量级因果卷积网络,用于高效语音重建。

模型变体

可用模型

  • Qwen3-TTS-12Hz-1.7B-Base:用于语音克隆和微调的基础模型。
  • Qwen3-TTS-12Hz-1.7B-CustomVoice:预配置了 9 种高级音色。
  • Qwen3-TTS-12Hz-1.7B-VoiceDesign:专门用于基于描述的语音创建。
  • Qwen3-TTS-12Hz-0.6B-CustomVoice:具有自定义语音功能的轻量级版本。
  • Qwen3-TTS-12Hz-0.6B-Base:紧凑型基础模型。

训练数据

  • 在超过 500 万小时的高质量语音数据上进行训练。
  • 全面覆盖 10 种语言和多种方言。
  • 先进的上下文理解能力,可自适应控制语调和情感表达。

技术创新

先进的语音表示

  • 语义-声学解耦:将高级语义内容与声学细节分离。
  • 多令牌预测 (MTP):实现从第一个编解码器帧即时解码语音。
  • 基于 GAN 的训练:生成器在原始波形上运行,判别器则提高自然度。

流式传输能力

  • 因果架构:全因果特征编码器和解码器,用于实时处理。
  • 实时合成:端到端合成延迟低至 97 毫秒。
  • 增量解码:从离散令牌逐步重建音频。

安装和使用

快速安装

# 创建隔离环境
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# 通过 PyPI 安装
pip install qwen-tts

# 可选:FlashAttention 2 用于内存优化
pip install flash-attn

开发安装

git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .

基本用法示例

from qwen_tts import Qwen3TTSModel
import torch

# 加载模型
tts = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)

# 生成语音
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)

性能和基准测试

最先进的结果

  • 在 TTS 多语言测试集上表现优异。
  • 在 InstructTTSEval 基准测试中获得优异分数。
  • 在长语音生成任务中取得杰出成果。
  • 对嘈杂的输入文本具有鲁棒性。

质量指标

  • 高保真语音重建。
  • 自然的韵律和情感表达。
  • 跨语言一致的语音质量。
  • 流式模式下伪影极少。

集成和部署

平台支持

  • vLLM-Omni:官方零日支持部署和推理。
  • ComfyUI:多个社区实现用于工作流集成。
  • Hugging Face:直接的模型托管和推理 API。
  • DashScope API:阿里云的优化部署平台。

硬件要求

  • 推荐使用兼容 CUDA 的 GPU。
  • 需要兼容 FlashAttention 2 的硬件以获得最佳性能。
  • 支持 torch.float16 或 torch.bfloat16 精度。

社区和生态系统

开源承诺

  • 在 Apache 2.0 许可下发布。
  • 提供完整的模型权重和分词器。
  • 提供全面的文档和示例。
  • 支持活跃的社区开发。

社区集成

  • 多个 ComfyUI 自定义节点实现。
  • 第三方包装库和工具。
  • 与流行的机器学习框架集成。
  • 大量的示例代码和教程。

研究与开发

技术论文

该项目附带一份全面的技术报告(arXiv:2601.15621),详细介绍了架构、训练方法和性能评估。

未来路线图

  • 增强的在线服务能力。
  • 增加语言支持。
  • 优化流式传输性能。
  • 扩展与多模态 AI 系统的集成。

结论

Qwen3-TTS 代表了开源文本转语音技术的一大飞跃。凭借其多语言支持、超低延迟流式传输、先进的语音克隆能力以及在各种场景下的强大性能,它为可访问的高质量语音合成树立了新标准。该项目对开源开发和全面文档的承诺,使其成为研究人员、开发人员和寻求最先进 TTS 能力的组织的绝佳选择。

Star History Chart