wanaigc/ComfyUI-Qwen3-TTS View GitHub Homepage for Latest Official Releases
先進的開源 TTS 模型系列,支援多語言語音生成、3 秒語音克隆以及超低延遲串流合成
PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026
Qwen3-TTS:先進的多語言文字轉語音模型系列
專案概述
Qwen3-TTS 是由阿里巴巴雲端 Qwen 團隊開發的開源先進文字轉語音 (TTS) 模型系列。此全面的 TTS 套件於 2026 年 1 月發佈,代表了語音合成技術的重大進步,在語音生成、語音複製和即時串流合成方面提供了前所未有的功能。
主要特性與功能
核心功能
- 多語言支援:原生支援 10 種主要語言,包括中文、英文、日文、韓文、德文、法文、俄文、葡萄牙文、西班牙文和義大利文。
- 語音複製:最先進的 3 秒快速語音複製,只需極少的音訊輸入。
- 語音設計:使用自然語言描述創建全新的語音。
- 串流生成:超低延遲串流,首個封包發射延遲為 97 毫秒。
- 自訂語音控制:對音色、情感和韻律等聲學屬性進行精細控制。
技術架構
雙軌語言模型架構
Qwen3-TTS 採用創新的雙軌混合串流生成架構,支援串流和非串流生成模式。此設計可在單個字元輸入後立即輸出音訊,使其成為即時互動應用的理想選擇。
兩種語音標記器
Qwen-TTS-Tokenizer-25Hz:
- 強調語義內容的單碼本編解碼器。
- 與 Qwen-Audio 模型無縫整合。
- 支援透過區塊式 DiT 進行串流波形重建。
Qwen-TTS-Tokenizer-12Hz:
- 多碼本設計,具有 16 層,以 12.5 Hz 運行。
- 極致的位元率降低,實現超低延遲串流。
- 輕量級因果 ConvNet,用於高效語音重建。
模型變體
可用模型
- Qwen3-TTS-12Hz-1.7B-Base:用於語音複製和微調的基礎模型。
- Qwen3-TTS-12Hz-1.7B-CustomVoice:預先配置了 9 種優質語音音色。
- Qwen3-TTS-12Hz-1.7B-VoiceDesign:專門用於基於描述的語音創建。
- Qwen3-TTS-12Hz-0.6B-CustomVoice:具有自訂語音功能的輕量級版本。
- Qwen3-TTS-12Hz-0.6B-Base:緊湊型基礎模型。
訓練資料
- 在超過 500 萬小時的高品質語音資料上進行訓練。
- 全面涵蓋 10 種語言和多種方言設定檔。
- 先進的上下文理解能力,用於自適應語氣和情感表達控制。
技術創新
先進語音表示
- 語義-聲學解耦:將高階語義內容與聲學細節分開。
- 多標記預測 (MTP):從第一個編解碼器幀實現即時語音解碼。
- 基於 GAN 的訓練:生成器在原始波形上運行,判別器則提高自然度。
串流功能
- 因果架構:全因果特徵編碼器和解碼器,用於即時處理。
- 即時合成:端到端合成延遲低至 97 毫秒。
- 增量解碼:從離散標記逐步重建音訊。
安裝與使用
快速安裝
# 創建隔離環境
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# 透過 PyPI 安裝
pip install qwen-tts
# 可選:FlashAttention 2 以優化記憶體
pip install flash-attn
開發安裝
git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .
基本用法範例
from qwen_tts import Qwen3TTSModel
import torch
# 加載模型
tts = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-1.7B-Base",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2"
)
# 生成語音
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)
效能與基準測試
最先進的結果
- 在 TTS 多語言測試集上表現優異。
- 在 InstructTTSEval 基準測試中獲得優異分數。
- 在長語音生成任務中取得傑出成果。
- 對嘈雜的輸入文本具有穩健的處理能力。
品質指標
- 高保真語音重建。
- 自然的韻律和情感表達。
- 跨語言的穩定語音品質。
- 串流模式下的偽影極少。
整合與部署
平台支援
- vLLM-Omni:官方第一天支援部署和推理。
- ComfyUI:多個社群實作,用於工作流程整合。
- Hugging Face:直接的模型託管和推理 API。
- DashScope API:阿里巴巴雲端的優化部署平台。
硬體需求
- 建議使用支援 CUDA 的 GPU。
- 支援 FlashAttention 2 相容硬體以獲得最佳效能。
- 支援 torch.float16 或 torch.bfloat16 精度。
社群與生態系統
開源承諾
- 根據 Apache 2.0 授權發佈。
- 提供完整的模型權重和標記器。
- 提供全面的文件和範例。
- 活躍的社群開發支援。
社群整合
- 多個 ComfyUI 自訂節點實作。
- 第三方包裝函式庫和工具。
- 與流行的機器學習框架整合。
- 大量的範例程式碼和教學。
研究與開發
技術論文
該專案附帶一份全面的技術報告 (arXiv:2601.15621),詳細介紹了架構、訓練方法和效能評估。
未來路線圖
- 加強線上服務能力。
- 增加語言支援。
- 優化串流效能。
- 擴大與多模態 AI 系統的整合。
結論
Qwen3-TTS 代表了開源文字轉語音技術的重大飛躍。憑藉其多語言支援、超低延遲串流、先進的語音複製功能以及在各種場景下的穩健效能,它為可存取的、高品質的語音合成樹立了新的標準。該專案對開源開發和全面文件的承諾,使其成為研究人員、開發人員和尋求最先進 TTS 功能的組織的絕佳選擇。