wanaigc/ComfyUI-Qwen3-TTS View GitHub Homepage for Latest Official Releases

先進的開源 TTS 模型系列，支援多語言語音生成、3 秒語音克隆以及超低延遲串流合成

PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026

Qwen3-TTS：先進的多語言文字轉語音模型系列

專案概述

Qwen3-TTS 是由阿里巴巴雲端 Qwen 團隊開發的開源先進文字轉語音 (TTS) 模型系列。此全面的 TTS 套件於 2026 年 1 月發佈，代表了語音合成技術的重大進步，在語音生成、語音複製和即時串流合成方面提供了前所未有的功能。

主要特性與功能

核心功能

多語言支援：原生支援 10 種主要語言，包括中文、英文、日文、韓文、德文、法文、俄文、葡萄牙文、西班牙文和義大利文。
語音複製：最先進的 3 秒快速語音複製，只需極少的音訊輸入。
語音設計：使用自然語言描述創建全新的語音。
串流生成：超低延遲串流，首個封包發射延遲為 97 毫秒。
自訂語音控制：對音色、情感和韻律等聲學屬性進行精細控制。

技術架構

雙軌語言模型架構

Qwen3-TTS 採用創新的雙軌混合串流生成架構，支援串流和非串流生成模式。此設計可在單個字元輸入後立即輸出音訊，使其成為即時互動應用的理想選擇。

兩種語音標記器

Qwen-TTS-Tokenizer-25Hz：
- 強調語義內容的單碼本編解碼器。
- 與 Qwen-Audio 模型無縫整合。
- 支援透過區塊式 DiT 進行串流波形重建。
Qwen-TTS-Tokenizer-12Hz：
- 多碼本設計，具有 16 層，以 12.5 Hz 運行。
- 極致的位元率降低，實現超低延遲串流。
- 輕量級因果 ConvNet，用於高效語音重建。

模型變體

可用模型

Qwen3-TTS-12Hz-1.7B-Base：用於語音複製和微調的基礎模型。
Qwen3-TTS-12Hz-1.7B-CustomVoice：預先配置了 9 種優質語音音色。
Qwen3-TTS-12Hz-1.7B-VoiceDesign：專門用於基於描述的語音創建。
Qwen3-TTS-12Hz-0.6B-CustomVoice：具有自訂語音功能的輕量級版本。
Qwen3-TTS-12Hz-0.6B-Base：緊湊型基礎模型。

訓練資料

在超過 500 萬小時的高品質語音資料上進行訓練。
全面涵蓋 10 種語言和多種方言設定檔。
先進的上下文理解能力，用於自適應語氣和情感表達控制。

技術創新

先進語音表示

語義-聲學解耦：將高階語義內容與聲學細節分開。
多標記預測 (MTP)：從第一個編解碼器幀實現即時語音解碼。
基於 GAN 的訓練：生成器在原始波形上運行，判別器則提高自然度。

串流功能

因果架構：全因果特徵編碼器和解碼器，用於即時處理。
即時合成：端到端合成延遲低至 97 毫秒。
增量解碼：從離散標記逐步重建音訊。

安裝與使用

快速安裝

# 創建隔離環境
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# 透過 PyPI 安裝
pip install qwen-tts

# 可選：FlashAttention 2 以優化記憶體
pip install flash-attn

開發安裝

git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .

基本用法範例

from qwen_tts import Qwen3TTSModel
import torch

# 加載模型
tts = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)

# 生成語音
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)

效能與基準測試

最先進的結果

在 TTS 多語言測試集上表現優異。
在 InstructTTSEval 基準測試中獲得優異分數。
在長語音生成任務中取得傑出成果。
對嘈雜的輸入文本具有穩健的處理能力。

品質指標

高保真語音重建。
自然的韻律和情感表達。
跨語言的穩定語音品質。
串流模式下的偽影極少。

整合與部署

平台支援

vLLM-Omni：官方第一天支援部署和推理。
ComfyUI：多個社群實作，用於工作流程整合。
Hugging Face：直接的模型託管和推理 API。
DashScope API：阿里巴巴雲端的優化部署平台。

硬體需求

建議使用支援 CUDA 的 GPU。
支援 FlashAttention 2 相容硬體以獲得最佳效能。
支援 torch.float16 或 torch.bfloat16 精度。

社群與生態系統

開源承諾

根據 Apache 2.0 授權發佈。
提供完整的模型權重和標記器。
提供全面的文件和範例。
活躍的社群開發支援。

社群整合

多個 ComfyUI 自訂節點實作。
第三方包裝函式庫和工具。
與流行的機器學習框架整合。
大量的範例程式碼和教學。

研究與開發

技術論文

該專案附帶一份全面的技術報告 (arXiv:2601.15621)，詳細介紹了架構、訓練方法和效能評估。

未來路線圖

加強線上服務能力。
增加語言支援。
優化串流效能。
擴大與多模態 AI 系統的整合。

結論

Qwen3-TTS 代表了開源文字轉語音技術的重大飛躍。憑藉其多語言支援、超低延遲串流、先進的語音複製功能以及在各種場景下的穩健效能，它為可存取的、高品質的語音合成樹立了新的標準。該專案對開源開發和全面文件的承諾，使其成為研究人員、開發人員和尋求最先進 TTS 功能的組織的絕佳選擇。