Home
Login

PaddleSpeech: un kit de herramientas de voz fácil de usar que incluye modelos de aprendizaje autosupervisado, ASR de última generación/en streaming con puntuación, TTS en streaming con front-end de texto, sistema de verificación de hablantes, traducción de voz de extremo a extremo y reconocimiento de palabras clave. Ganador del premio a la mejor demostración en NAACL2022.

Apache-2.0Python 12.0kPaddlePaddle Last Updated: 2025-06-10

Introducción detallada al proyecto PaddleSpeech

Resumen del proyecto

PaddleSpeech es un kit de herramientas de voz de código abierto desarrollado sobre la plataforma Baidu PaddlePaddle, centrado en diversas tareas clave de voz y audio. El proyecto, gracias a sus diseños de modelos más recientes e influyentes, ha sido galardonado con el Premio a la Mejor Demostración en NAACL2022.

Características principales

🚀 Facilidad de uso

  • Instalación de bajo umbral: Proporciona métodos de instalación sencillos.
  • Herramientas de línea de comandos: Admite CLI, Server y Streaming Server para una rápida puesta en marcha.
  • Múltiples interfaces: Admite el uso tanto de la línea de comandos como de la API de Python.

🏆 Tecnología de vanguardia

  • Alineado con la última tecnología: Proporciona modelos de alta velocidad y ultraligeros, así como tecnología de vanguardia.
  • Sistema de streaming: Proporciona sistemas de ASR y TTS de streaming listos para producción.
  • Aprendizaje autosupervisado: Integra modelos de aprendizaje autosupervisado.

💯 Frontend de voz en chino

  • Procesamiento de reglas: Incluye la normalización de texto y la conversión de grafemas a fonemas (G2P).
  • Procesamiento de polisemia: Admite el procesamiento de polisemia y cambios de tono.
  • Reglas lingüísticas: Utiliza reglas lingüísticas personalizadas para adaptarse al contexto chino.

Módulos de funciones principales

1. Reconocimiento de voz (ASR)

  • Modelos compatibles: DeepSpeech2, Transformer, Conformer, U2, etc.
  • Soporte multilingüe: Chino, inglés, mezcla de chino e inglés.
  • Reconocimiento en tiempo real: Admite el reconocimiento de voz en streaming.
  • Restauración de puntuación: Añade automáticamente signos de puntuación.

2. Síntesis de voz (TTS)

  • Modelos acústicos: Tacotron2, FastSpeech2, SpeedySpeech, VITS, etc.
  • Vocoders: WaveFlow, PWGAN, HiFiGAN, Multi Band MelGAN, etc.
  • Soporte multilingüe: Chino, inglés, mezcla de chino e inglés, cantonés.
  • Clonación de voz: Admite la clonación y el ajuste fino de la voz.

3. Verificación del hablante (VPR)

  • Identificación del hablante: Basado en el modelo ECAPA-TDNN.
  • Extracción de huellas de voz: Extracción de características de huellas de voz de nivel industrial.
  • Separación del hablante: Admite la tarea de separación del hablante.

4. Traducción de voz (ST)

  • Traducción de extremo a extremo: Traducción de voz de inglés a chino.
  • Preentrenamiento multimodal: Combina características acústicas y de texto.

5. Clasificación de audio (CLS)

  • Clasificación de dominio abierto: Clasificación de audio de 527 clases basada en el conjunto de datos AudioSet.
  • Modelo PANN: Utiliza redes neuronales de audio preentrenadas.

6. Reconocimiento de palabras clave (KWS)

  • Detección de palabras de activación: Admite palabras de activación personalizadas.
  • Modelos ligeros: Adecuado para la implementación en dispositivos móviles.

Arquitectura técnica

Soporte de modelos

  • Aprendizaje autosupervisado: Wav2vec2.0, HuBERT, WavLM, etc.
  • Mecanismo de atención: Arquitecturas Transformer, Conformer.
  • Entrenamiento de extremo a extremo: Modelos unificados U2, U2++, etc.
  • Entrenamiento adversarial: Modelos generativos VITS, StarGAN, etc.

Soporte de conjuntos de datos

  • Conjuntos de datos ASR: Aishell, LibriSpeech, CommonVoice, etc.
  • Conjuntos de datos TTS: LJSpeech, CSMSC, VCTK, etc.
  • Datos multilingües: Admite conjuntos de datos mixtos de chino e inglés.

Instalación y uso

Requisitos del sistema

  • Sistema operativo: Linux (recomendado), Windows, Mac OSX.
  • Versión de Python: ≥ 3.8
  • Compilador: gcc ≥ 4.8.5
  • Framework de dependencia: PaddlePaddle

Métodos de instalación

1. Instalación con pip

pip install paddlespeech

2. Instalación desde el código fuente (recomendado)

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

Experiencia rápida

Ejemplo de reconocimiento de voz

# Modo de línea de comandos
paddlespeech asr --lang zh --input zh.wav

# Modo API de Python
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="zh.wav")

Ejemplo de síntesis de voz

# Modo de línea de comandos
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav

# Modo API de Python
from paddlespeech.cli.tts.infer import TTSExecutor
tts = TTSExecutor()
tts(text="今天天气十分不错。", output="output.wav")

Despliegue de servicios

Servidor de voz

PaddleSpeech proporciona una solución completa de servidor:

Iniciar el servicio

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

Llamada del cliente

# Servicio ASR
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# Servicio TTS
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好,欢迎使用百度飞桨语音合成服务。"

Servicio de streaming

Admite el reconocimiento y la síntesis de voz en streaming en tiempo real:

# ASR de streaming
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# TTS de streaming
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --input "您好,欢迎使用百度飞桨语音合成服务。"

Casos de uso

Aplicaciones industriales

  • Atención al cliente inteligente: Reconocimiento de voz + Síntesis de voz
  • Asistente de voz: Detección de palabras de activación + Sistema de diálogo
  • Creación de contenido: Clonación de voz + Síntesis multilingüe
  • Servicios de accesibilidad: Voz a texto + Texto a voz

Investigación académica

  • Preentrenamiento multimodal: Modelos ERNIE-SAT, etc.
  • Traducción de voz: Traducción de inglés a chino de extremo a extremo
  • Identificación del hablante: Reconocimiento y verificación de huellas de voz
  • Análisis de audio: Clasificación de audio y reconocimiento de escenas

Ventajas técnicas

1. Rendimiento del modelo

  • Efecto SOTA: Alcanza niveles líderes en la industria en múltiples tareas.
  • Despliegue ligero: Admite dispositivos móviles y de borde.
  • Procesamiento en tiempo real: Satisface las necesidades de interacción en tiempo real.

2. Facilidad de uso

  • Despliegue con un solo clic: Flujo de instalación y configuración simplificado.
  • Documentación rica: Instrucciones de uso y ejemplos completos.
  • Soporte de la comunidad: Comunidad de desarrolladores activa.

3. Escalabilidad

  • Diseño modular: Admite modelos y tareas personalizadas.
  • Soporte multilingüe: Expansión continua de la cobertura de idiomas.
  • Despliegue multiplataforma: Admite múltiples entornos de despliegue.

Comunidad y ecosistema

Comunidad de código abierto

  • Estrellas de GitHub: Más de 10k estrellas.
  • Colaboradores: Desarrolladores de todo el mundo.
  • Proyectos de la comunidad: Proyectos derivados basados en PaddleSpeech.

Proyectos relacionados

  • PaddleBoBo: Generación de voz para presentadores virtuales.
  • VTuberTalk: Herramienta de clonación de voz para vídeos.
  • FastASR: Implementación de inferencia en C++.
  • VoiceTyping: Herramienta de entrada de voz en tiempo real.

Resumen

PaddleSpeech es un kit de herramientas de voz completo y fácil de usar que abarca múltiples tareas centrales como el reconocimiento de voz, la síntesis de voz, la verificación del hablante y la traducción de voz. A través de un diseño modular y una rica colección de modelos preentrenados, proporciona a desarrolladores e investigadores una potente solución de IA de voz. Ya sea para investigación académica o aplicaciones industriales, PaddleSpeech puede proporcionar soporte técnico de alta calidad y soluciones completas.