Dia 是由 Nari Labs 開發的一個 16 億參數的文本轉語音 (TTS) 模型,專門設計用於從文本腳本直接生成高度逼真的對話內容。與傳統的 TTS 模型不同,Dia 專注於多說話人對話場景,能夠捕捉對話的自然流動性和交互特徵。
該項目採用 Apache 2.0 開源許可證,旨在加速語音合成研究的發展,為研究人員、開發者和內容創作者提供強大的工具。
精度類型 | 編譯後實時倍數 | 未編譯實時倍數 | 顯存佔用 |
---|---|---|---|
bfloat16 | x2.1 | x1.5 | ~10GB |
float16 | x2.2 | x1.3 | ~10GB |
float32 | x1 | x0.9 | ~13GB |
Dia 代表了開源 TTS 技術的重要突破,特別是在對話生成領域。它不僅提供了與商業解決方案(如 ElevenLabs)相媲美的質量,還具備完全開源、可本地部署的優勢。對於需要高質量語音合成能力的研究人員和開發者來說,Dia 提供了一個強大且靈活的解決方案。