Home
Login
nari-labs/dia

Dia:能够一次生成超逼真对话的文本转语音(TTS)模型

Apache-2.0Python 16.9knari-labs Last Updated: 2025-05-28
https://github.com/nari-labs/dia

Dia - 超逼真对话生成的开源TTS模型

项目概述

Dia是由Nari Labs开发的一个16亿参数的文本转语音(TTS)模型,专门设计用于从文本脚本直接生成高度逼真的对话内容。与传统的TTS模型不同,Dia专注于多说话人对话场景,能够捕捉对话的自然流动性和交互特征。

该项目采用Apache 2.0开源许可证,旨在加速语音合成研究的发展,为研究人员、开发者和内容创作者提供强大的工具。

核心功能与特性

🎯 核心能力

  • 多说话人对话生成:通过[S1]和[S2]标签支持双人对话场景
  • 一次性生成:直接从文本脚本生成高度逼真的对话,无需多步处理
  • 非语言交流:支持生成笑声、咳嗽、清嗓子等非语言声音
  • 情感和语调控制:可以基于音频输入条件控制情感和语调

🔧 技术特性

  • 16亿参数规模:提供强大的语音生成能力
  • 零样本声音克隆:仅需几秒钟的参考音频即可进行声音克隆
  • 实时性能:支持在单个GPU上实时运行
  • 硬件优化:在RTX 4090上可达到2.2倍实时速度(float16精度)

📊 性能指标

精度类型 编译后实时倍数 未编译实时倍数 显存占用
bfloat16 x2.1 x1.5 ~10GB
float16 x2.2 x1.3 ~10GB
float32 x1 x0.9 ~13GB

🛠️ 使用方式

  1. 直接安装:支持通过pip从GitHub直接安装
  2. Gradio界面:提供用户友好的Web界面
  3. Python库调用:可作为Python库集成到项目中
  4. 在线体验:提供HuggingFace Space和在线演示

🌟 应用场景

  • 虚拟助手:为AI助手提供自然的对话语音
  • 游戏开发:生成游戏角色之间的对话
  • 有声读物:创建多角色有声书内容
  • 无障碍工具:为视障用户提供文本朗读服务
  • 内容创作:制作播客、广播剧等音频内容

技术架构

模型特点

  • 基于深度学习的端到端架构
  • 支持PyTorch 2.0+和CUDA 12.6
  • 集成Descript Audio Codec进行音频处理
  • 支持torch.compile优化推理速度

输入格式要求

  • 使用[S1]和[S2]标签区分不同说话人
  • 支持非语言标签如(laughs)、(coughs)等
  • 建议输入长度对应5-20秒音频
  • 音频提示时长建议5-10秒

开源生态

代码仓库

许可证与合规

  • 采用Apache License 2.0开源许可
  • 严格禁止身份冒用、欺骗性内容生成等恶意使用
  • 强调研究和教育用途的合法使用

总结

Dia代表了开源TTS技术的重要突破,特别是在对话生成领域。它不仅提供了与商业解决方案(如ElevenLabs)相媲美的质量,还具备完全开源、可本地部署的优势。对于需要高质量语音合成能力的研究人员和开发者来说,Dia提供了一个强大且灵活的解决方案。