Home
Login

PaddleSpeech: 사용하기 쉬운 음성 툴킷으로, 자기 지도 학습 모델, 구두점 표기가 포함된 최신/스트리밍 ASR, 텍스트 프론트엔드가 포함된 스트리밍 TTS, 화자 검증 시스템, 엔드 투 엔드 음성 번역 및 키워드 인식을 포함합니다. NAACL2022 최우수 데모상을 수상했습니다.

Apache-2.0Python 12.0kPaddlePaddle Last Updated: 2025-06-10

PaddleSpeech 프로젝트 상세 소개

프로젝트 개요

PaddleSpeech는 바이두 파들플랫폼(PaddlePaddle)을 기반으로 개발된 오픈소스 음성 툴킷으로, 다양한 핵심 음성 및 오디오 작업에 집중합니다. 이 프로젝트는 최신의 영향력 있는 모델 설계를 통해 NAACL2022 최우수 데모상을 수상했습니다.

핵심 특징

🚀 사용 편의성

  • 낮은 진입 장벽 설치: 간단한 설치 방식 제공
  • 명령행 도구: CLI, Server 및 스트리밍 Server를 지원하여 빠른 시작 가능
  • 다양한 인터페이스: 명령행 및 Python API의 두 가지 사용 방식 지원

🏆 최첨단 기술

  • 최신 기술 대비: 고속, 초경량 모델 및 최첨단 기술 제공
  • 스트리밍 시스템: 생산 준비가 완료된 스트리밍 ASR 및 스트리밍 TTS 시스템 제공
  • 자기 지도 학습: 자기 지도 학습 모델 통합

💯 중국어 음성 프론트엔드

  • 규칙화 처리: 텍스트 표준화 및 음소 변환(G2P) 포함
  • 다의어 처리: 다의어 및 변조 처리 지원
  • 언어학 규칙: 사용자 정의 언어학 규칙을 사용하여 중국어 맥락에 적응

주요 기능 모듈

1. 음성 인식 (ASR)

  • 지원 모델: DeepSpeech2, Transformer, Conformer, U2 등
  • 다국어 지원: 중국어, 영어, 중영 혼합
  • 실시간 인식: 스트리밍 음성 인식 지원
  • 구두점 복원: 자동 구두점 추가

2. 음성 합성 (TTS)

  • 음향 모델: Tacotron2, FastSpeech2, SpeedySpeech, VITS 등
  • 보코더: WaveFlow, PWGAN, HiFiGAN, Multi Band MelGAN 등
  • 다국어 지원: 중국어, 영어, 중영 혼합, 광둥어
  • 음성 복제: 음성 복제 및 미세 조정 지원

3. 화자 검증 (VPR)

  • 화자 식별: ECAPA-TDNN 모델 기반
  • 성문 특징 추출: 산업 등급 성문 특징 추출
  • 화자 분리: 화자 분리 작업 지원

4. 음성 번역 (ST)

  • 엔드 투 엔드 번역: 영어-중국어 음성 번역
  • 다중 모드 사전 훈련: 음향 및 텍스트 특징 결합

5. 오디오 분류 (CLS)

  • 개방 도메인 분류: AudioSet 데이터 세트의 527개 클래스 오디오 분류 기반
  • PANN 모델: 사전 훈련된 오디오 신경망 사용

6. 키워드 인식 (KWS)

  • 웨이크 워드 감지: 사용자 정의 웨이크 워드 지원
  • 경량 모델: 모바일 장치 배포에 적합

기술 아키텍처

모델 지원

  • 자기 지도 학습: Wav2vec2.0, HuBERT, WavLM 등
  • 주의 메커니즘: Transformer, Conformer 아키텍처
  • 엔드 투 엔드 훈련: U2, U2++ 등 통합 모델
  • 적대적 훈련: VITS, StarGAN 등 생성 모델

데이터 세트 지원

  • ASR 데이터 세트: Aishell, LibriSpeech, CommonVoice 등
  • TTS 데이터 세트: LJSpeech, CSMSC, VCTK 등
  • 다국어 데이터: 중영 혼합 데이터 세트 지원

설치 및 사용

시스템 요구 사항

  • 운영 체제: Linux (권장), Windows, Mac OSX
  • Python 버전: ≥ 3.8
  • 컴파일러: gcc ≥ 4.8.5
  • 종속 프레임워크: PaddlePaddle

설치 방법

1. pip 설치

pip install paddlespeech

2. 소스 코드 설치 (권장)

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

빠른 체험

음성 인식 예시

# 명령행 방식
paddlespeech asr --lang zh --input zh.wav

# Python API 방식
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="zh.wav")

음성 합성 예시

# 명령행 방식
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav

# Python API 방식
from paddlespeech.cli.tts.infer import TTSExecutor
tts = TTSExecutor()
tts(text="今天天气十分不错。", output="output.wav")

서비스 배포

음성 서버

PaddleSpeech는 완전한 서버 솔루션을 제공합니다.

서비스 시작

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

클라이언트 호출

# ASR 서비스
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# TTS 서비스
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好,欢迎使用百度飞桨语音合成服务。"

스트리밍 서비스

실시간 스트리밍 음성 인식 및 음성 합성을 지원합니다.

# 스트리밍 ASR
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# 스트리밍 TTS
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --input "您好,欢迎使用百度飞桨语音合成服务。"

응용 사례

산업 응용

  • 지능형 고객 서비스: 음성 인식 + 음성 합성
  • 음성 비서: 웨이크 워드 감지 + 대화 시스템
  • 콘텐츠 제작: 음성 복제 + 다국어 합성
  • 접근성 서비스: 음성-텍스트 변환 + 텍스트-음성 변환

학술 연구

  • 다중 모드 사전 훈련: ERNIE-SAT 등 모델
  • 음성 번역: 엔드 투 엔드 영어-중국어
  • 화자 식별: 성문 인식 및 검증
  • 오디오 분석: 오디오 분류 및 장면 인식

기술적 장점

1. 모델 성능

  • SOTA 효과: 여러 작업에서 업계 최고 수준 달성
  • 경량화 배포: 모바일 및 엣지 장치 지원
  • 실시간 처리: 실시간 상호 작용 요구 사항 충족

2. 사용 편의성

  • 원클릭 배포: 간소화된 설치 및 구성 프로세스
  • 풍부한 문서: 완전한 사용 설명 및 예시
  • 커뮤니티 지원: 활발한 개발자 커뮤니티

3. 확장성

  • 모듈식 설계: 사용자 정의 모델 및 작업 지원
  • 다국어 지원: 지속적인 언어 범위 확장
  • 크로스 플랫폼 배포: 다양한 배포 환경 지원

커뮤니티 및 생태계

오픈 소스 커뮤니티

  • GitHub Stars: 10k개 이상 스타 획득
  • 기여자: 전 세계 개발자
  • 커뮤니티 프로젝트: PaddleSpeech 기반 파생 프로젝트

관련 프로젝트

  • PaddleBoBo: 가상 아나운서 음성 생성
  • VTuberTalk: 비디오 음성 복제 도구
  • FastASR: C++ 추론 구현
  • VoiceTyping: 실시간 음성 입력 도구

결론

PaddleSpeech는 음성 인식, 음성 합성, 화자 검증, 음성 번역 등 여러 핵심 작업을 포괄하는 기능이 풍부하고 사용하기 쉬운 음성 툴킷입니다. 모듈식 설계와 풍부한 사전 훈련 모델을 통해 개발자와 연구자에게 강력한 음성 AI 솔루션을 제공합니다. 학술 연구든 산업 응용이든 PaddleSpeech는 고품질 기술 지원과 완전한 솔루션을 제공할 수 있습니다.