AIBARS Home Project Library Login

nari-labs/diaPlease refer to the latest official releases for information GitHub Homepage

Dia：能夠一次生成超逼真對話的文本轉語音(TTS)模型

Apache-2.0Python 16.9knari-labs Last Updated: 2025-05-28

Dia - 超逼真對話生成的開源 TTS 模型

項目概述

Dia 是由 Nari Labs 開發的一個 16 億參數的文本轉語音 (TTS) 模型，專門設計用於從文本腳本直接生成高度逼真的對話內容。與傳統的 TTS 模型不同，Dia 專注於多說話人對話場景，能夠捕捉對話的自然流動性和交互特徵。

該項目採用 Apache 2.0 開源許可證，旨在加速語音合成研究的發展，為研究人員、開發者和內容創作者提供強大的工具。

核心功能與特性

🎯 核心能力

多說話人對話生成：通過 [S1] 和 [S2] 標籤支持雙人對話場景
一次性生成：直接從文本腳本生成高度逼真的對話，無需多步處理
非語言交流：支持生成笑聲、咳嗽、清嗓子等非語言聲音
情感和語調控制：可以基於音頻輸入條件控制情感和語調

🔧 技術特性

16 億參數規模：提供強大的語音生成能力
零樣本聲音克隆：僅需幾秒鐘的參考音頻即可進行聲音克隆
實時性能：支持在單個 GPU 上實時運行
硬件優化：在 RTX 4090 上可達到 2.2 倍實時速度（float16 精度）

📊 性能指標

精度類型	編譯後實時倍數	未編譯實時倍數	顯存佔用
bfloat16	x2.1	x1.5	~10GB
float16	x2.2	x1.3	~10GB
float32	x1	x0.9	~13GB

🛠️ 使用方式

直接安裝：支持通過 pip 從 GitHub 直接安裝
Gradio 界面：提供用戶友好的 Web 界面
Python 庫調用：可作為 Python 庫集成到項目中
在線體驗：提供 HuggingFace Space 和在線演示

🌟 應用場景

虛擬助手：為 AI 助手提供自然的對話語音
遊戲開發：生成遊戲角色之間的對話
有聲讀物：創建多角色有聲書內容
無障礙工具：為視障用戶提供文本朗讀服務
內容創作：製作播客、廣播劇等音頻內容

技術架構

模型特點

基於深度學習的端到端架構
支持 PyTorch 2.0+ 和 CUDA 12.6
集成 Descript Audio Codec 進行音頻處理
支持 torch.compile 優化推理速度

輸入格式要求

使用 [S1] 和 [S2] 標籤區分不同說話人
支持非語言標籤如 (laughs)、(coughs) 等
建議輸入長度對應 5-20 秒音頻
音頻提示時長建議 5-10 秒

開源生態

代碼倉庫

GitHub：https://github.com/nari-labs/dia
模型權重：託管在 HuggingFace 平台
社區支持：提供 Discord 伺服器進行技術交流

許可證與合規

採用 Apache License 2.0 開源許可
嚴格禁止身份冒用、欺騙性內容生成等惡意使用
強調研究和教育用途的合法使用

總結

Dia 代表了開源 TTS 技術的重要突破，特別是在對話生成領域。它不僅提供了與商業解決方案（如 ElevenLabs）相媲美的質量，還具備完全開源、可本地部署的優勢。對於需要高質量語音合成能力的研究人員和開發者來說，Dia 提供了一個強大且靈活的解決方案。