nari-labs/diaPlease refer to the latest official releases for information GitHub Homepage

Dia: 一度に非常にリアルな会話を生成できるテキスト読み上げ(TTS)モデル

Apache-2.0Python 16.9knari-labs Last Updated: 2025-05-28

Dia - 超リアルな会話生成を実現するオープンソースTTSモデル

プロジェクト概要

Diaは、Nari Labsが開発した16億パラメータのテキスト読み上げ(TTS)モデルで、テキストスクリプトから直接、非常にリアルな会話コンテンツを生成するために特別に設計されています。従来のTTSモデルとは異なり、Diaは複数話者の会話シーンに焦点を当て、会話の自然な流れとインタラクションの特徴を捉えることができます。

このプロジェクトは、Apache 2.0オープンソースライセンスを採用しており、音声合成研究の発展を加速させ、研究者、開発者、コンテンツクリエイターに強力なツールを提供することを目的としています。

主要な機能と特性

🎯 主要な能力

複数話者による会話生成: [S1]と[S2]のタグを使用して、2人での会話シーンをサポート
ワンショット生成: テキストスクリプトから直接、非常にリアルな会話を生成し、複数ステップの処理は不要
非言語コミュニケーション: 笑い声、咳、咳払いなどの非言語音声を生成可能
感情と語調の制御: オーディオ入力条件に基づいて、感情と語調を制御可能

🔧 技術特性

16億パラメータ規模: 強力な音声生成能力を提供
ゼロショット音声クローン: わずか数秒の参照オーディオで音声クローンを作成可能
リアルタイム性能: 単一のGPU上でリアルタイム実行をサポート
ハードウェア最適化: RTX 4090上で2.2倍のリアルタイム速度を達成（float16精度）

📊 性能指標

精度タイプ	コンパイル後のリアルタイム倍率	未コンパイルのリアルタイム倍率	顕存消費量
bfloat16	x2.1	x1.5	~10GB
float16	x2.2	x1.3	~10GB
float32	x1	x0.9	~13GB

🛠️ 使用方法

直接インストール: pipを使用してGitHubから直接インストールをサポート
Gradioインターフェース: ユーザーフレンドリーなWebインターフェースを提供
Pythonライブラリ呼び出し: Pythonライブラリとしてプロジェクトに統合可能
オンライン体験: HuggingFace Spaceとオンラインデモを提供

🌟 アプリケーションシナリオ

バーチャルアシスタント: AIアシスタントに自然な会話音声を提供
ゲーム開発: ゲームキャラクター間の会話を生成
オーディオブック: 複数キャラクターのオーディオブックコンテンツを作成
アクセシビリティツール: 視覚障碍者向けにテキスト読み上げサービスを提供
コンテンツ制作: ポッドキャスト、ラジオドラマなどのオーディオコンテンツを制作

技術アーキテクチャ

モデルの特徴

深層学習に基づくエンドツーエンドアーキテクチャ
PyTorch 2.0+とCUDA 12.6をサポート
Descript Audio Codecを統合してオーディオ処理を実行
torch.compileをサポートして推論速度を最適化

入力フォーマットの要件

[S1]と[S2]のタグを使用して、異なる話者を区別
(laughs)、(coughs)などの非言語タグをサポート
入力長は5〜20秒のオーディオに対応することを推奨
オーディオプロンプトの長さは5〜10秒を推奨

オープンソースエコシステム

コードリポジトリ

GitHub: https://github.com/nari-labs/dia
モデルウェイト: HuggingFaceプラットフォームでホスト
コミュニティサポート: 技術交流のためのDiscordサーバーを提供

ライセンスとコンプライアンス

Apache License 2.0オープンソースライセンスを採用
身分詐称、欺瞞的なコンテンツ生成などの悪意のある使用を厳格に禁止
研究および教育目的での合法的な使用を強調

まとめ

Diaは、特に会話生成の分野において、オープンソースTTS技術の重要なブレークスルーを代表しています。ElevenLabsなどの商用ソリューションに匹敵する品質を提供するだけでなく、完全にオープンソースでローカルにデプロイできるという利点も備えています。高品質な音声合成能力を必要とする研究者や開発者にとって、Diaは強力かつ柔軟なソリューションを提供します。