AIBARS Home Project Library Login

nari-labs/dia

Dia:能够一次生成超逼真对话的文本转语音(TTS)模型

Apache-2.0Python 16.9knari-labs Last Updated: 2025-05-28

https://github.com/nari-labs/dia

Dia - 超逼真对话生成的开源TTS模型

项目概述

Dia是由Nari Labs开发的一个16亿参数的文本转语音(TTS)模型，专门设计用于从文本脚本直接生成高度逼真的对话内容。与传统的TTS模型不同，Dia专注于多说话人对话场景，能够捕捉对话的自然流动性和交互特征。

该项目采用Apache 2.0开源许可证，旨在加速语音合成研究的发展，为研究人员、开发者和内容创作者提供强大的工具。

核心功能与特性

🎯 核心能力

多说话人对话生成：通过[S1]和[S2]标签支持双人对话场景
一次性生成：直接从文本脚本生成高度逼真的对话，无需多步处理
非语言交流：支持生成笑声、咳嗽、清嗓子等非语言声音
情感和语调控制：可以基于音频输入条件控制情感和语调

🔧 技术特性

16亿参数规模：提供强大的语音生成能力
零样本声音克隆：仅需几秒钟的参考音频即可进行声音克隆
实时性能：支持在单个GPU上实时运行
硬件优化：在RTX 4090上可达到2.2倍实时速度（float16精度）

📊 性能指标

精度类型	编译后实时倍数	未编译实时倍数	显存占用
bfloat16	x2.1	x1.5	~10GB
float16	x2.2	x1.3	~10GB
float32	x1	x0.9	~13GB

🛠️ 使用方式

直接安装：支持通过pip从GitHub直接安装
Gradio界面：提供用户友好的Web界面
Python库调用：可作为Python库集成到项目中
在线体验：提供HuggingFace Space和在线演示

🌟 应用场景

虚拟助手：为AI助手提供自然的对话语音
游戏开发：生成游戏角色之间的对话
有声读物：创建多角色有声书内容
无障碍工具：为视障用户提供文本朗读服务
内容创作：制作播客、广播剧等音频内容

技术架构

模型特点

基于深度学习的端到端架构
支持PyTorch 2.0+和CUDA 12.6
集成Descript Audio Codec进行音频处理
支持torch.compile优化推理速度

输入格式要求

使用[S1]和[S2]标签区分不同说话人
支持非语言标签如(laughs)、(coughs)等
建议输入长度对应5-20秒音频
音频提示时长建议5-10秒

开源生态

代码仓库

GitHub：https://github.com/nari-labs/dia
模型权重：托管在HuggingFace平台
社区支持：提供Discord服务器进行技术交流

许可证与合规

采用Apache License 2.0开源许可
严格禁止身份冒用、欺骗性内容生成等恶意使用
强调研究和教育用途的合法使用

总结

Dia代表了开源TTS技术的重要突破，特别是在对话生成领域。它不仅提供了与商业解决方案（如ElevenLabs）相媲美的质量，还具备完全开源、可本地部署的优势。对于需要高质量语音合成能力的研究人员和开发者来说，Dia提供了一个强大且灵活的解决方案。