先進的開源 TTS 模型系列,支援多語言語音生成、3 秒語音克隆以及超低延遲串流合成

PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026

Qwen3-TTS:先進的多語言文字轉語音模型系列

專案概述

Qwen3-TTS 是由阿里巴巴雲端 Qwen 團隊開發的開源先進文字轉語音 (TTS) 模型系列。此全面的 TTS 套件於 2026 年 1 月發佈,代表了語音合成技術的重大進步,在語音生成、語音複製和即時串流合成方面提供了前所未有的功能。

主要特性與功能

核心功能

  • 多語言支援:原生支援 10 種主要語言,包括中文、英文、日文、韓文、德文、法文、俄文、葡萄牙文、西班牙文和義大利文。
  • 語音複製:最先進的 3 秒快速語音複製,只需極少的音訊輸入。
  • 語音設計:使用自然語言描述創建全新的語音。
  • 串流生成:超低延遲串流,首個封包發射延遲為 97 毫秒。
  • 自訂語音控制:對音色、情感和韻律等聲學屬性進行精細控制。

技術架構

雙軌語言模型架構

Qwen3-TTS 採用創新的雙軌混合串流生成架構,支援串流和非串流生成模式。此設計可在單個字元輸入後立即輸出音訊,使其成為即時互動應用的理想選擇。

兩種語音標記器

  1. Qwen-TTS-Tokenizer-25Hz

    • 強調語義內容的單碼本編解碼器。
    • 與 Qwen-Audio 模型無縫整合。
    • 支援透過區塊式 DiT 進行串流波形重建。
  2. Qwen-TTS-Tokenizer-12Hz

    • 多碼本設計,具有 16 層,以 12.5 Hz 運行。
    • 極致的位元率降低,實現超低延遲串流。
    • 輕量級因果 ConvNet,用於高效語音重建。

模型變體

可用模型

  • Qwen3-TTS-12Hz-1.7B-Base:用於語音複製和微調的基礎模型。
  • Qwen3-TTS-12Hz-1.7B-CustomVoice:預先配置了 9 種優質語音音色。
  • Qwen3-TTS-12Hz-1.7B-VoiceDesign:專門用於基於描述的語音創建。
  • Qwen3-TTS-12Hz-0.6B-CustomVoice:具有自訂語音功能的輕量級版本。
  • Qwen3-TTS-12Hz-0.6B-Base:緊湊型基礎模型。

訓練資料

  • 在超過 500 萬小時的高品質語音資料上進行訓練。
  • 全面涵蓋 10 種語言和多種方言設定檔。
  • 先進的上下文理解能力,用於自適應語氣和情感表達控制。

技術創新

先進語音表示

  • 語義-聲學解耦:將高階語義內容與聲學細節分開。
  • 多標記預測 (MTP):從第一個編解碼器幀實現即時語音解碼。
  • 基於 GAN 的訓練:生成器在原始波形上運行,判別器則提高自然度。

串流功能

  • 因果架構:全因果特徵編碼器和解碼器,用於即時處理。
  • 即時合成:端到端合成延遲低至 97 毫秒。
  • 增量解碼:從離散標記逐步重建音訊。

安裝與使用

快速安裝

# 創建隔離環境
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# 透過 PyPI 安裝
pip install qwen-tts

# 可選:FlashAttention 2 以優化記憶體
pip install flash-attn

開發安裝

git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .

基本用法範例

from qwen_tts import Qwen3TTSModel
import torch

# 加載模型
tts = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)

# 生成語音
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)

效能與基準測試

最先進的結果

  • 在 TTS 多語言測試集上表現優異。
  • 在 InstructTTSEval 基準測試中獲得優異分數。
  • 在長語音生成任務中取得傑出成果。
  • 對嘈雜的輸入文本具有穩健的處理能力。

品質指標

  • 高保真語音重建。
  • 自然的韻律和情感表達。
  • 跨語言的穩定語音品質。
  • 串流模式下的偽影極少。

整合與部署

平台支援

  • vLLM-Omni:官方第一天支援部署和推理。
  • ComfyUI:多個社群實作,用於工作流程整合。
  • Hugging Face:直接的模型託管和推理 API。
  • DashScope API:阿里巴巴雲端的優化部署平台。

硬體需求

  • 建議使用支援 CUDA 的 GPU。
  • 支援 FlashAttention 2 相容硬體以獲得最佳效能。
  • 支援 torch.float16 或 torch.bfloat16 精度。

社群與生態系統

開源承諾

  • 根據 Apache 2.0 授權發佈。
  • 提供完整的模型權重和標記器。
  • 提供全面的文件和範例。
  • 活躍的社群開發支援。

社群整合

  • 多個 ComfyUI 自訂節點實作。
  • 第三方包裝函式庫和工具。
  • 與流行的機器學習框架整合。
  • 大量的範例程式碼和教學。

研究與開發

技術論文

該專案附帶一份全面的技術報告 (arXiv:2601.15621),詳細介紹了架構、訓練方法和效能評估。

未來路線圖

  • 加強線上服務能力。
  • 增加語言支援。
  • 優化串流效能。
  • 擴大與多模態 AI 系統的整合。

結論

Qwen3-TTS 代表了開源文字轉語音技術的重大飛躍。憑藉其多語言支援、超低延遲串流、先進的語音複製功能以及在各種場景下的穩健效能,它為可存取的、高品質的語音合成樹立了新的標準。該專案對開源開發和全面文件的承諾,使其成為研究人員、開發人員和尋求最先進 TTS 功能的組織的絕佳選擇。

Star History Chart