nari-labs/diaPlease refer to the latest official releases for information GitHub Homepage

Dia: 한 번에 매우 사실적인 대화를 생성할 수 있는 텍스트 음성 변환(TTS) 모델

Apache-2.0Python 16.9knari-labs Last Updated: 2025-05-28

Dia - 초현실적인 대화 생성을 위한 오픈 소스 TTS 모델

프로젝트 개요

Dia는 Nari Labs에서 개발한 16억 개의 파라미터를 가진 텍스트 음성 변환(TTS) 모델로, 텍스트 스크립트에서 직접 고도로 현실적인 대화 내용을 생성하도록 특별히 설계되었습니다. 기존의 TTS 모델과 달리 Dia는 다중 화자 대화 시나리오에 중점을 두어 대화의 자연스러운 흐름과 상호 작용 특징을 포착할 수 있습니다.

이 프로젝트는 Apache 2.0 오픈 소스 라이선스를 채택하여 음성 합성 연구 발전을 가속화하고 연구원, 개발자 및 콘텐츠 제작자에게 강력한 도구를 제공하는 것을 목표로 합니다.

핵심 기능 및 특징

🎯 핵심 능력

다중 화자 대화 생성: [S1] 및 [S2] 태그를 통해 2인 대화 시나리오 지원
일회성 생성: 텍스트 스크립트에서 직접 고도로 현실적인 대화 생성, 다단계 처리 불필요
비언어적 의사 소통: 웃음, 기침, 헛기침 등 비언어적 소리 생성 지원
감정 및 어조 제어: 오디오 입력 조건을 기반으로 감정 및 어조 제어 가능

🔧 기술적 특징

16억 파라미터 규모: 강력한 음성 생성 능력 제공
제로샷 음성 복제: 몇 초 분량의 참조 오디오만으로 음성 복제 가능
실시간 성능: 단일 GPU에서 실시간 실행 지원
하드웨어 최적화: RTX 4090에서 2.2배 실시간 속도 달성 (float16 정밀도)

📊 성능 지표

정밀도 유형	컴파일 후 실시간 배수	컴파일 전 실시간 배수	메모리 사용량
bfloat16	x2.1	x1.5	~10GB
float16	x2.2	x1.3	~10GB
float32	x1	x0.9	~13GB

🛠️ 사용 방법

직접 설치: pip를 통해 GitHub에서 직접 설치 지원
Gradio 인터페이스: 사용자 친화적인 웹 인터페이스 제공
Python 라이브러리 호출: Python 라이브러리로 프로젝트에 통합 가능
온라인 체험: HuggingFace Space 및 온라인 데모 제공

🌟 응용 시나리오

가상 비서: AI 비서에게 자연스러운 대화 음성 제공
게임 개발: 게임 캐릭터 간의 대화 생성
오디오북: 다중 캐릭터 오디오북 콘텐츠 제작
접근성 도구: 시각 장애인 사용자에게 텍스트 읽어주기 서비스 제공
콘텐츠 제작: 팟캐스트, 라디오 드라마 등 오디오 콘텐츠 제작

기술 아키텍처

모델 특징

딥러닝 기반의 엔드 투 엔드 아키텍처
PyTorch 2.0+ 및 CUDA 12.6 지원
Descript Audio Codec을 통합하여 오디오 처리
torch.compile을 지원하여 추론 속도 최적화

입력 형식 요구 사항

[S1] 및 [S2] 태그를 사용하여 다른 화자 구분
(laughs), (coughs) 등 비언어적 태그 지원
입력 길이 5-20초 오디오에 해당하도록 권장
오디오 프롬프트 길이 5-10초 권장

오픈 소스 생태계

코드 저장소

GitHub: https://github.com/nari-labs/dia
모델 가중치: HuggingFace 플랫폼에 호스팅
커뮤니티 지원: Discord 서버를 통해 기술 교류 제공

라이선스 및 규정 준수

Apache License 2.0 오픈 소스 라이선스 채택
신분 사칭, 기만적인 콘텐츠 생성 등 악의적인 사용 엄격히 금지
연구 및 교육 용도의 합법적인 사용 강조

요약

Dia는 특히 대화 생성 분야에서 오픈 소스 TTS 기술의 중요한 돌파구를 나타냅니다. ElevenLabs와 같은 상업용 솔루션에 필적하는 품질을 제공할 뿐만 아니라 완전한 오픈 소스, 로컬 배포 가능이라는 장점을 갖추고 있습니다. 고품질 음성 합성 능력이 필요한 연구원과 개발자에게 Dia는 강력하고 유연한 솔루션을 제공합니다.