Home
Login

Spark-TTS: 대규모 언어 모델 기반의 효율적인 텍스트 음성 변환 시스템, 제로샷 음성 복제 및 제어 가능한 음성 생성 지원

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09

Spark-TTS 프로젝트 상세 소개

프로젝트 개요

Spark-TTS는 SparkAudio 팀에서 개발한 대규모 언어 모델(LLM) 기반의 첨단 텍스트 음성 변환 시스템입니다. 이 시스템은 혁신적인 단일 스트림 분리 음성 토큰 기술을 채택하여 고품질의 자연스러운 음성 합성 효과를 생성할 수 있습니다. 프로젝트는 Qwen2.5 대규모 언어 모델을 기반으로 구축되었으며, 연구 및 생산 환경을 위해 설계되었으며, 효율성, 유연성, 강력한 기능을 갖추고 있습니다.

핵심 기능 및 특징

1. 간결하고 효율적인 아키텍처 설계

  • Qwen2.5를 기반으로 구축되어 추가 생성 모델(예: 흐름 매칭 모델)이 필요하지 않습니다.
  • LLM에서 직접 코드 재구성을 통해 오디오를 예측하여 처리 흐름을 단순화합니다.
  • 효율성을 높이고 시스템 복잡성을 줄입니다.

2. 제로샷 음성 복제

  • 특정 훈련 데이터 없이도 화자의 음성을 복제할 수 있는 제로샷 음성 복제 기술을 지원합니다.
  • 다국어 및 코드 전환 시나리오에 매우 적합합니다.
  • 다양한 언어와 음성 간에 원활하게 전환할 수 있습니다.

3. 이중 언어 지원 능력

  • 한국어와 영어 음성 합성을 지원합니다.
  • 다국어 제로샷 음성 복제 기능을 갖추고 있습니다.
  • 다국어 환경에서 높은 자연스러움과 정확성을 유지합니다.

4. 제어 가능한 음성 생성

  • 매개변수 조정을 통해 가상 화자를 만들 수 있습니다.
  • 성별, 음조, 속도 등 음성 특징을 제어할 수 있습니다.
  • 거친 입자 속성 제어 및 세밀한 입자 매개변수 조정을 제공합니다.

5. 첨단 기술 아키텍처

  • BiCodec 기술: 단일 스트림 음성 코덱으로, 음성을 두 가지 상호 보완적인 토큰 유형으로 분해합니다.
    • 낮은 비트 전송률 의미 토큰: 언어 콘텐츠에 사용됩니다.
    • 고정 길이 글로벌 토큰: 화자 특정 속성에 사용됩니다.
  • 사고 사슬(CoT) 생성 방법: 분리된 표현을 결합하여 정확한 제어를 구현합니다.

기술 사양

시스템 요구 사항

  • 운영 체제: Linux (주요 지원), Windows (설치 가이드 참조)
  • Python 버전: 3.12+
  • 딥 러닝 프레임워크: PyTorch 2.5+
  • 라이선스: Apache 2.0

모델 정보

  • 모델 이름: Spark-TTS-0.5B
  • 호스팅 플랫폼: Hugging Face
  • 지원 플랫폼: Nvidia Triton 추론 서비스 지원

설치 및 사용

기본 설치

# 저장소 복제
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# Conda 환경 생성
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

모델 다운로드

# Python을 통해 다운로드
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

사용 방법

  1. 명령줄 인터페이스: 직접 명령줄 추론을 지원합니다.
  2. Web UI 인터페이스: 그래픽 인터페이스를 제공하여 음성 복제 및 음성 생성을 지원합니다.
  3. API 인터페이스: 프로그램 방식 호출을 지원합니다.

성능

추론 성능

  • 단일 L20 GPU에서 벤치마크 테스트를 수행합니다.
  • 테스트 데이터: 26쌍의 서로 다른 프롬프트 오디오/대상 텍스트 (총 169초 오디오)
  • 높은 동시성 처리를 지원합니다.
  • 실시간 팩터(RTF) 성능 지표를 제공합니다.

음성 품질

  • 고품질의 제로샷 음성 복제 효과
  • 다양한 유명 인사 및 캐릭터의 음성 재현을 지원합니다.
  • 한국어 및 영어 환경에서 뛰어난 성능을 유지합니다.

응용 분야

학술 연구

  • 음성 합성 기술 연구
  • 언어학 연구
  • 인공 지능 및 머신 러닝 연구

실제 응용

  • 개인화된 음성 합성
  • 보조 기술 개발
  • 멀티미디어 콘텐츠 제작
  • 다국어 커뮤니케이션 도구

기술적 장점

  1. 혁신적인 아키텍처: 단일 스트림 분리 음성 토큰 기반의 새로운 디자인
  2. 효율적인 구현: LLM 출력에서 직접 오디오를 재구성하여 복잡한 중간 단계를 피합니다.
  3. 유연한 제어: 다단계 음성 특징 제어를 지원합니다.
  4. 다국어 능력: 뛰어난 다국어 및 다국어 간 성능
  5. 제로샷 학습: 추가 훈련 없이 새로운 화자에 적응할 수 있습니다.

윤리 및 사용 규정

프로젝트는 사용 지침을 명확하게 규정합니다.

  • 학술 연구, 교육 목적 및 합법적인 응용 분야에만 사용하십시오.
  • 승인되지 않은 음성 복제, 사칭, 사기 등 불법 행위에 사용하는 것을 금지합니다.
  • 사용자는 현지 법률 및 윤리적 기준을 준수해야 합니다.
  • 개발자는 오용에 대한 책임을 지지 않습니다.

요약

Spark-TTS는 기술적으로 진보되고 강력한 텍스트 음성 변환 시스템으로, 현재 TTS 기술의 최첨단 수준을 나타냅니다. 혁신적인 아키텍처 설계와 첨단 딥 러닝 기술을 통해 효율성을 유지하면서 뛰어난 음성 품질과 유연한 제어 기능을 제공합니다. 이 프로젝트는 학술 연구에 적합할 뿐만 아니라 실제 응용 가능성도 갖추고 있으며, 음성 합성 분야에 중요한 기여를 합니다.