Diaは、Nari Labsが開発した16億パラメータのテキスト読み上げ(TTS)モデルで、テキストスクリプトから直接、非常にリアルな会話コンテンツを生成するために特別に設計されています。従来のTTSモデルとは異なり、Diaは複数話者の会話シーンに焦点を当て、会話の自然な流れとインタラクションの特徴を捉えることができます。
このプロジェクトは、Apache 2.0オープンソースライセンスを採用しており、音声合成研究の発展を加速させ、研究者、開発者、コンテンツクリエイターに強力なツールを提供することを目的としています。
精度タイプ | コンパイル後のリアルタイム倍率 | 未コンパイルのリアルタイム倍率 | 顕存消費量 |
---|---|---|---|
bfloat16 | x2.1 | x1.5 | ~10GB |
float16 | x2.2 | x1.3 | ~10GB |
float32 | x1 | x0.9 | ~13GB |
Diaは、特に会話生成の分野において、オープンソースTTS技術の重要なブレークスルーを代表しています。ElevenLabsなどの商用ソリューションに匹敵する品質を提供するだけでなく、完全にオープンソースでローカルにデプロイできるという利点も備えています。高品質な音声合成能力を必要とする研究者や開発者にとって、Diaは強力かつ柔軟なソリューションを提供します。