Dia是由Nari Labs开发的一个16亿参数的文本转语音(TTS)模型,专门设计用于从文本脚本直接生成高度逼真的对话内容。与传统的TTS模型不同,Dia专注于多说话人对话场景,能够捕捉对话的自然流动性和交互特征。
该项目采用Apache 2.0开源许可证,旨在加速语音合成研究的发展,为研究人员、开发者和内容创作者提供强大的工具。
精度类型 | 编译后实时倍数 | 未编译实时倍数 | 显存占用 |
---|---|---|---|
bfloat16 | x2.1 | x1.5 | ~10GB |
float16 | x2.2 | x1.3 | ~10GB |
float32 | x1 | x0.9 | ~13GB |
Dia代表了开源TTS技术的重要突破,特别是在对话生成领域。它不仅提供了与商业解决方案(如ElevenLabs)相媲美的质量,还具备完全开源、可本地部署的优势。对于需要高质量语音合成能力的研究人员和开发者来说,Dia提供了一个强大且灵活的解决方案。