多言語音声生成、3秒の音声クローン、超低遅延ストリーミング合成をサポートする高度なオープンソースTTSモデルシリーズ

PythonComfyUI-Qwen3-TTSwanaigc 45 Last Updated: January 25, 2026

Qwen3-TTS: 高度な多言語テキスト読み上げモデルシリーズ

プロジェクト概要

Qwen3-TTSは、Alibaba CloudのQwenチームによって開発された、オープンソースの高度なテキスト読み上げ(TTS)モデルシリーズです。2026年1月にリリースされたこの包括的なTTSスイートは、音声生成、クローニング、リアルタイムストリーミング合成において前例のない機能を提供し、音声合成技術における重要な進歩を表しています。

主な特徴と機能

コア機能

  • 多言語サポート: 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語を含む10の主要言語をネイティブサポート
  • 音声クローニング: 最小限の音声入力から最先端の3秒間高速音声クローニング
  • 音声デザイン: 自然言語の説明を使用して完全に新しい音声を生成
  • ストリーミング生成: 97msの初回パケット発行による超低遅延ストリーミング
  • カスタム音声制御: 音色、感情、プロソディを含む音響属性のきめ細かな制御

技術アーキテクチャ

デュアルトラック言語モデルアーキテクチャ

Qwen3-TTSは、ストリーミング生成モードと非ストリーミング生成モードの両方をサポートする革新的なデュアルトラックハイブリッドストリーミング生成アーキテクチャを採用しています。この設計により、単一文字入力後の即時音声出力が可能になり、リアルタイムのインタラクティブアプリケーションに最適です。

2つの音声トークナイザー

  1. Qwen-TTS-Tokenizer-25Hz:

    • セマンティックコンテンツを重視したシングルコードブックコーデック
    • Qwen-Audioモデルとのシームレスな統合
    • ブロックごとのDiTによるストリーミング波形再構築をサポート
  2. Qwen-TTS-Tokenizer-12Hz:

    • 12.5 Hzで動作する16層のマルチコードブック設計
    • 超低遅延ストリーミングのための極端なビットレート削減
    • 効率的な音声再構築のための軽量な因果型ConvNet

モデルバリアント

利用可能なモデル

  • Qwen3-TTS-12Hz-1.7B-Base: 音声クローニングおよびファインチューニング用の基盤モデル
  • Qwen3-TTS-12Hz-1.7B-CustomVoice: 9つのプレミアム音声音色で事前設定済み
  • Qwen3-TTS-12Hz-1.7B-VoiceDesign: 説明ベースの音声作成に特化
  • Qwen3-TTS-12Hz-0.6B-CustomVoice: カスタム音声機能を備えた軽量バージョン
  • Qwen3-TTS-12Hz-0.6B-Base: コンパクトな基盤モデル

トレーニングデータ

  • 500万時間以上の高品質音声データでトレーニング済み
  • 10言語および複数の方言プロファイルにわたる包括的なカバレッジ
  • 適応的なトーンと感情表現制御のための高度な文脈理解

技術革新

高度な音声表現

  • セマンティック・アコースティック分離: 高レベルのセマンティックコンテンツと音響の詳細を分離
  • マルチトークン予測(MTP): 最初のコーデックフレームからの即時音声デコードを可能にする
  • GANベースのトレーニング: ジェネレーターは生の波形上で動作し、ディスクリミネーターが自然さを向上させる

ストリーミング機能

  • 因果型アーキテクチャ: リアルタイム処理のための完全に因果型の特徴エンコーダーとデコーダー
  • リアルタイム合成: 97msという低さのエンドツーエンド合成遅延
  • 増分デコーディング: 離散トークンからの段階的な音声再構築

インストールと使用方法

クイックインストール

# 隔離された環境を作成
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# PyPI経由でインストール
pip install qwen-tts

# オプション: メモリ最適化のためのFlashAttention 2
pip install flash-attn

開発インストール

git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .

基本的な使用例

from qwen_tts import Qwen3TTSModel
import torch

# モデルをロード
tts = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)

# 音声を生成
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)

パフォーマンスとベンチマーク

最先端の結果

  • TTS多言語テストセットでの優れたパフォーマンス
  • InstructTTSEvalベンチマークでの優れたスコア
  • 長尺音声生成タスクでの卓越した結果
  • ノイズの多い入力テキストの堅牢な処理

品質メトリクス

  • 高忠実度の音声再構築
  • 自然なプロソディと感情表現
  • 言語間での一貫した音声品質
  • ストリーミングモードでの最小限のアーティファクト

統合とデプロイメント

プラットフォームサポート

  • vLLM-Omni: デプロイメントと推論のための公式初日サポート
  • ComfyUI: ワークフロー統合のための複数のコミュニティ実装
  • Hugging Face: 直接的なモデルホスティングと推論API
  • DashScope API: Alibaba Cloudの最適化されたデプロイメントプラットフォーム

ハードウェア要件

  • CUDA互換GPUを推奨
  • 最適なパフォーマンスのためのFlashAttention 2互換ハードウェア
  • torch.float16またはtorch.bfloat16精度のサポート

コミュニティとエコシステム

オープンソースへのコミットメント

  • Apache 2.0ライセンスの下でリリース
  • 完全なモデルウェイトとトークナイザーが利用可能
  • 包括的なドキュメントと例
  • アクティブなコミュニティ開発サポート

コミュニティ統合

  • 複数のComfyUIカスタムノード実装
  • サードパーティ製ラッパーライブラリとツール
  • 人気のあるMLフレームワークとの統合
  • 豊富なサンプルコードとチュートリアル

研究開発

技術論文

本プロジェクトには、アーキテクチャ、トレーニング方法論、およびパフォーマンス評価を詳細に説明した包括的な技術レポート(arXiv:2601.15621)が付属しています。

将来のロードマップ

  • オンラインサービング機能の強化
  • 追加の言語サポート
  • ストリーミングパフォーマンス最適化の改善
  • マルチモーダルAIシステムとの統合の拡張

結論

Qwen3-TTSは、オープンソースのテキスト読み上げ技術における大きな飛躍を表しています。多言語サポート、超低遅延ストリーミング、高度な音声クローニング機能、および多様なシナリオでの堅牢なパフォーマンスの組み合わせにより、アクセス可能で高品質な音声合成の新しい基準を設定します。オープンソース開発と包括的なドキュメントへのプロジェクトのコミットメントは、最先端のTTS機能を求める研究者、開発者、および組織にとって優れた選択肢となります。

Star History Chart