wanaigc/ComfyUI-Qwen3-TTS View GitHub Homepage for Latest Official Releases

多言語音声生成、3秒の音声クローン、超低遅延ストリーミング合成をサポートする高度なオープンソースTTSモデルシリーズ

PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026

Qwen3-TTS: 高度な多言語テキスト読み上げモデルシリーズ

プロジェクト概要

Qwen3-TTSは、Alibaba CloudのQwenチームによって開発された、オープンソースの高度なテキスト読み上げ（TTS）モデルシリーズです。2026年1月にリリースされたこの包括的なTTSスイートは、音声生成、クローニング、リアルタイムストリーミング合成において前例のない機能を提供し、音声合成技術における重要な進歩を表しています。

主な特徴と機能

コア機能

多言語サポート: 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語を含む10の主要言語をネイティブサポート
音声クローニング: 最小限の音声入力から最先端の3秒間高速音声クローニング
音声デザイン: 自然言語の説明を使用して完全に新しい音声を生成
ストリーミング生成: 97msの初回パケット発行による超低遅延ストリーミング
カスタム音声制御: 音色、感情、プロソディを含む音響属性のきめ細かな制御

技術アーキテクチャ

デュアルトラック言語モデルアーキテクチャ

Qwen3-TTSは、ストリーミング生成モードと非ストリーミング生成モードの両方をサポートする革新的なデュアルトラックハイブリッドストリーミング生成アーキテクチャを採用しています。この設計により、単一文字入力後の即時音声出力が可能になり、リアルタイムのインタラクティブアプリケーションに最適です。

2つの音声トークナイザー

Qwen-TTS-Tokenizer-25Hz:
- セマンティックコンテンツを重視したシングルコードブックコーデック
- Qwen-Audioモデルとのシームレスな統合
- ブロックごとのDiTによるストリーミング波形再構築をサポート
Qwen-TTS-Tokenizer-12Hz:
- 12.5 Hzで動作する16層のマルチコードブック設計
- 超低遅延ストリーミングのための極端なビットレート削減
- 効率的な音声再構築のための軽量な因果型ConvNet

モデルバリアント

利用可能なモデル

Qwen3-TTS-12Hz-1.7B-Base: 音声クローニングおよびファインチューニング用の基盤モデル
Qwen3-TTS-12Hz-1.7B-CustomVoice: 9つのプレミアム音声音色で事前設定済み
Qwen3-TTS-12Hz-1.7B-VoiceDesign: 説明ベースの音声作成に特化
Qwen3-TTS-12Hz-0.6B-CustomVoice: カスタム音声機能を備えた軽量バージョン
Qwen3-TTS-12Hz-0.6B-Base: コンパクトな基盤モデル

トレーニングデータ

500万時間以上の高品質音声データでトレーニング済み
10言語および複数の方言プロファイルにわたる包括的なカバレッジ
適応的なトーンと感情表現制御のための高度な文脈理解

技術革新

高度な音声表現

セマンティック・アコースティック分離: 高レベルのセマンティックコンテンツと音響の詳細を分離
マルチトークン予測（MTP）: 最初のコーデックフレームからの即時音声デコードを可能にする
GANベースのトレーニング: ジェネレーターは生の波形上で動作し、ディスクリミネーターが自然さを向上させる

ストリーミング機能

因果型アーキテクチャ: リアルタイム処理のための完全に因果型の特徴エンコーダーとデコーダー
リアルタイム合成: 97msという低さのエンドツーエンド合成遅延
増分デコーディング: 離散トークンからの段階的な音声再構築

インストールと使用方法

クイックインストール

# 隔離された環境を作成
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# PyPI経由でインストール
pip install qwen-tts

# オプション: メモリ最適化のためのFlashAttention 2
pip install flash-attn

開発インストール

git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .

基本的な使用例

from qwen_tts import Qwen3TTSModel
import torch

# モデルをロード
tts = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)

# 音声を生成
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)

パフォーマンスとベンチマーク

最先端の結果

TTS多言語テストセットでの優れたパフォーマンス
InstructTTSEvalベンチマークでの優れたスコア
長尺音声生成タスクでの卓越した結果
ノイズの多い入力テキストの堅牢な処理

品質メトリクス

高忠実度の音声再構築
自然なプロソディと感情表現
言語間での一貫した音声品質
ストリーミングモードでの最小限のアーティファクト

統合とデプロイメント

プラットフォームサポート

vLLM-Omni: デプロイメントと推論のための公式初日サポート
ComfyUI: ワークフロー統合のための複数のコミュニティ実装
Hugging Face: 直接的なモデルホスティングと推論API
DashScope API: Alibaba Cloudの最適化されたデプロイメントプラットフォーム

ハードウェア要件

CUDA互換GPUを推奨
最適なパフォーマンスのためのFlashAttention 2互換ハードウェア
torch.float16またはtorch.bfloat16精度のサポート

コミュニティとエコシステム

オープンソースへのコミットメント

Apache 2.0ライセンスの下でリリース
完全なモデルウェイトとトークナイザーが利用可能
包括的なドキュメントと例
アクティブなコミュニティ開発サポート

コミュニティ統合

複数のComfyUIカスタムノード実装
サードパーティ製ラッパーライブラリとツール
人気のあるMLフレームワークとの統合
豊富なサンプルコードとチュートリアル

研究開発

技術論文

本プロジェクトには、アーキテクチャ、トレーニング方法論、およびパフォーマンス評価を詳細に説明した包括的な技術レポート（arXiv:2601.15621）が付属しています。

将来のロードマップ

オンラインサービング機能の強化
追加の言語サポート
ストリーミングパフォーマンス最適化の改善
マルチモーダルAIシステムとの統合の拡張

結論

Qwen3-TTSは、オープンソースのテキスト読み上げ技術における大きな飛躍を表しています。多言語サポート、超低遅延ストリーミング、高度な音声クローニング機能、および多様なシナリオでの堅牢なパフォーマンスの組み合わせにより、アクセス可能で高品質な音声合成の新しい基準を設定します。オープンソース開発と包括的なドキュメントへのプロジェクトのコミットメントは、最先端のTTS機能を求める研究者、開発者、および組織にとって優れた選択肢となります。