Dia는 Nari Labs에서 개발한 16억 개의 파라미터를 가진 텍스트 음성 변환(TTS) 모델로, 텍스트 스크립트에서 직접 고도로 현실적인 대화 내용을 생성하도록 특별히 설계되었습니다. 기존의 TTS 모델과 달리 Dia는 다중 화자 대화 시나리오에 중점을 두어 대화의 자연스러운 흐름과 상호 작용 특징을 포착할 수 있습니다.
이 프로젝트는 Apache 2.0 오픈 소스 라이선스를 채택하여 음성 합성 연구 발전을 가속화하고 연구원, 개발자 및 콘텐츠 제작자에게 강력한 도구를 제공하는 것을 목표로 합니다.
정밀도 유형 | 컴파일 후 실시간 배수 | 컴파일 전 실시간 배수 | 메모리 사용량 |
---|---|---|---|
bfloat16 | x2.1 | x1.5 | ~10GB |
float16 | x2.2 | x1.3 | ~10GB |
float32 | x1 | x0.9 | ~13GB |
Dia는 특히 대화 생성 분야에서 오픈 소스 TTS 기술의 중요한 돌파구를 나타냅니다. ElevenLabs와 같은 상업용 솔루션에 필적하는 품질을 제공할 뿐만 아니라 완전한 오픈 소스, 로컬 배포 가능이라는 장점을 갖추고 있습니다. 고품질 음성 합성 능력이 필요한 연구원과 개발자에게 Dia는 강력하고 유연한 솔루션을 제공합니다.