Dia é um modelo de texto para fala (TTS) de 1,6 bilhão de parâmetros desenvolvido pela Nari Labs, projetado especificamente para gerar conteúdo de diálogo altamente realista diretamente de scripts de texto. Ao contrário dos modelos TTS tradicionais, o Dia se concentra em cenários de diálogo com vários falantes, sendo capaz de capturar o fluxo natural e as características interativas da conversa.
O projeto adota a licença de código aberto Apache 2.0, com o objetivo de acelerar o desenvolvimento da pesquisa em síntese de voz, fornecendo uma ferramenta poderosa para pesquisadores, desenvolvedores e criadores de conteúdo.
Tipo de Precisão | Multiplicador de Tempo Real Compilado | Multiplicador de Tempo Real Não Compilado | Uso de Memória da GPU |
---|---|---|---|
bfloat16 | x2.1 | x1.5 | ~10GB |
float16 | x2.2 | x1.3 | ~10GB |
float32 | x1 | x0.9 | ~13GB |
Dia representa um avanço importante na tecnologia TTS de código aberto, especialmente na área de geração de diálogo. Ele não apenas oferece uma qualidade comparável às soluções comerciais (como o ElevenLabs), mas também possui as vantagens de ser totalmente de código aberto e implantável localmente. Para pesquisadores e desenvolvedores que precisam de capacidades de síntese de voz de alta qualidade, o Dia oferece uma solução poderosa e flexível.