nari-labs/diaPlease refer to the latest official releases for information GitHub Homepage

Dia: Um modelo de texto para fala (TTS) capaz de gerar diálogos hiper-realistas de uma só vez.

Apache-2.0Python 16.9knari-labs Last Updated: 2025-05-28

Dia - Modelo TTS de Código Aberto para Geração de Diálogo Hiper-Realista

Visão Geral do Projeto

Dia é um modelo de texto para fala (TTS) de 1,6 bilhão de parâmetros desenvolvido pela Nari Labs, projetado especificamente para gerar conteúdo de diálogo altamente realista diretamente de scripts de texto. Ao contrário dos modelos TTS tradicionais, o Dia se concentra em cenários de diálogo com vários falantes, sendo capaz de capturar o fluxo natural e as características interativas da conversa.

O projeto adota a licença de código aberto Apache 2.0, com o objetivo de acelerar o desenvolvimento da pesquisa em síntese de voz, fornecendo uma ferramenta poderosa para pesquisadores, desenvolvedores e criadores de conteúdo.

Principais Funções e Características

🎯 Capacidades Essenciais

Geração de Diálogo com Múltiplos Falantes: Suporta cenários de diálogo entre duas pessoas através das tags [S1] e [S2]
Geração Única: Gera diálogos altamente realistas diretamente de scripts de texto, sem a necessidade de processamento em várias etapas
Comunicação Não Verbal: Suporta a geração de sons não verbais como risadas, tosses, pigarros, etc.
Controle de Emoção e Entonação: Permite controlar a emoção e a entonação com base em condições de entrada de áudio

🔧 Características Técnicas

Escala de 1,6 Bilhão de Parâmetros: Oferece uma poderosa capacidade de geração de voz
Clonagem de Voz Zero-Shot: Requer apenas alguns segundos de áudio de referência para clonagem de voz
Desempenho em Tempo Real: Suporta execução em tempo real em uma única GPU
Otimização de Hardware: Atinge 2,2 vezes a velocidade em tempo real em uma RTX 4090 (precisão float16)

📊 Métricas de Desempenho

Tipo de Precisão	Multiplicador de Tempo Real Compilado	Multiplicador de Tempo Real Não Compilado	Uso de Memória da GPU
bfloat16	x2.1	x1.5	~10GB
float16	x2.2	x1.3	~10GB
float32	x1	x0.9	~13GB

🛠️ Modo de Uso

Instalação Direta: Suporta a instalação direta do GitHub via pip
Interface Gradio: Fornece uma interface Web amigável
Chamada de Biblioteca Python: Pode ser integrado em projetos como uma biblioteca Python
Experiência Online: Oferece HuggingFace Space e demonstração online

🌟 Cenários de Aplicação

Assistentes Virtuais: Fornece voz de diálogo natural para assistentes de IA
Desenvolvimento de Jogos: Gera diálogos entre personagens de jogos
Audiolivros: Cria conteúdo de audiolivros com vários personagens
Ferramentas de Acessibilidade: Fornece serviços de leitura de texto para usuários com deficiência visual
Criação de Conteúdo: Produz podcasts, radionovelas e outros conteúdos de áudio

Arquitetura Técnica

Características do Modelo

Arquitetura end-to-end baseada em aprendizado profundo
Suporta PyTorch 2.0+ e CUDA 12.6
Integra o Descript Audio Codec para processamento de áudio
Suporta torch.compile para otimizar a velocidade de inferência

Requisitos de Formato de Entrada

Use as tags [S1] e [S2] para distinguir diferentes falantes
Suporta tags não verbais como (laughs), (coughs), etc.
O comprimento de entrada recomendado corresponde a 5-20 segundos de áudio
A duração da dica de áudio recomendada é de 5-10 segundos

Ecossistema de Código Aberto

Repositórios de Código

GitHub: https://github.com/nari-labs/dia
Pesos do Modelo: Hospedados na plataforma HuggingFace
Suporte da Comunidade: Fornece um servidor Discord para troca técnica

Licença e Conformidade

Adota a licença de código aberto Apache License 2.0
Proíbe estritamente o uso malicioso, como a personificação de identidade e a geração de conteúdo enganoso
Enfatiza o uso legal para fins de pesquisa e educação

Conclusão

Dia representa um avanço importante na tecnologia TTS de código aberto, especialmente na área de geração de diálogo. Ele não apenas oferece uma qualidade comparável às soluções comerciais (como o ElevenLabs), mas também possui as vantagens de ser totalmente de código aberto e implantável localmente. Para pesquisadores e desenvolvedores que precisam de capacidades de síntese de voz de alta qualidade, o Dia oferece uma solução poderosa e flexível.