Home
Login

Dia: 一度に非常にリアルな会話を生成できるテキスト読み上げ(TTS)モデル

Apache-2.0Python 16.9knari-labs Last Updated: 2025-05-28

Dia - 超リアルな会話生成を実現するオープンソースTTSモデル

プロジェクト概要

Diaは、Nari Labsが開発した16億パラメータのテキスト読み上げ(TTS)モデルで、テキストスクリプトから直接、非常にリアルな会話コンテンツを生成するために特別に設計されています。従来のTTSモデルとは異なり、Diaは複数話者の会話シーンに焦点を当て、会話の自然な流れとインタラクションの特徴を捉えることができます。

このプロジェクトは、Apache 2.0オープンソースライセンスを採用しており、音声合成研究の発展を加速させ、研究者、開発者、コンテンツクリエイターに強力なツールを提供することを目的としています。

主要な機能と特性

🎯 主要な能力

  • 複数話者による会話生成: [S1]と[S2]のタグを使用して、2人での会話シーンをサポート
  • ワンショット生成: テキストスクリプトから直接、非常にリアルな会話を生成し、複数ステップの処理は不要
  • 非言語コミュニケーション: 笑い声、咳、咳払いなどの非言語音声を生成可能
  • 感情と語調の制御: オーディオ入力条件に基づいて、感情と語調を制御可能

🔧 技術特性

  • 16億パラメータ規模: 強力な音声生成能力を提供
  • ゼロショット音声クローン: わずか数秒の参照オーディオで音声クローンを作成可能
  • リアルタイム性能: 単一のGPU上でリアルタイム実行をサポート
  • ハードウェア最適化: RTX 4090上で2.2倍のリアルタイム速度を達成(float16精度)

📊 性能指標

精度タイプ コンパイル後のリアルタイム倍率 未コンパイルのリアルタイム倍率 顕存消費量
bfloat16 x2.1 x1.5 ~10GB
float16 x2.2 x1.3 ~10GB
float32 x1 x0.9 ~13GB

🛠️ 使用方法

  1. 直接インストール: pipを使用してGitHubから直接インストールをサポート
  2. Gradioインターフェース: ユーザーフレンドリーなWebインターフェースを提供
  3. Pythonライブラリ呼び出し: Pythonライブラリとしてプロジェクトに統合可能
  4. オンライン体験: HuggingFace Spaceとオンラインデモを提供

🌟 アプリケーションシナリオ

  • バーチャルアシスタント: AIアシスタントに自然な会話音声を提供
  • ゲーム開発: ゲームキャラクター間の会話を生成
  • オーディオブック: 複数キャラクターのオーディオブックコンテンツを作成
  • アクセシビリティツール: 視覚障碍者向けにテキスト読み上げサービスを提供
  • コンテンツ制作: ポッドキャスト、ラジオドラマなどのオーディオコンテンツを制作

技術アーキテクチャ

モデルの特徴

  • 深層学習に基づくエンドツーエンドアーキテクチャ
  • PyTorch 2.0+とCUDA 12.6をサポート
  • Descript Audio Codecを統合してオーディオ処理を実行
  • torch.compileをサポートして推論速度を最適化

入力フォーマットの要件

  • [S1]と[S2]のタグを使用して、異なる話者を区別
  • (laughs)、(coughs)などの非言語タグをサポート
  • 入力長は5〜20秒のオーディオに対応することを推奨
  • オーディオプロンプトの長さは5〜10秒を推奨

オープンソースエコシステム

コードリポジトリ

  • GitHub: https://github.com/nari-labs/dia
  • モデルウェイト: HuggingFaceプラットフォームでホスト
  • コミュニティサポート: 技術交流のためのDiscordサーバーを提供

ライセンスとコンプライアンス

  • Apache License 2.0オープンソースライセンスを採用
  • 身分詐称、欺瞞的なコンテンツ生成などの悪意のある使用を厳格に禁止
  • 研究および教育目的での合法的な使用を強調

まとめ

Diaは、特に会話生成の分野において、オープンソースTTS技術の重要なブレークスルーを代表しています。ElevenLabsなどの商用ソリューションに匹敵する品質を提供するだけでなく、完全にオープンソースでローカルにデプロイできるという利点も備えています。高品質な音声合成能力を必要とする研究者や開発者にとって、Diaは強力かつ柔軟なソリューションを提供します。