Home
Login

PaddleSpeech: um kit de ferramentas de voz fácil de usar, contendo modelos de aprendizado auto-supervisionado, ASR de última geração/streaming com pontuação, TTS de streaming com front-end de texto, sistema de verificação de falantes, tradução de voz ponta a ponta e reconhecimento de palavras-chave. Vencedor do prêmio de Melhor Demonstração na NAACL2022.

Apache-2.0Python 12.0kPaddlePaddle Last Updated: 2025-06-10

PaddleSpeech 项目详细介绍

Visão Geral do Projeto

PaddleSpeech é um kit de ferramentas de código aberto para voz, desenvolvido com base na plataforma Baidu PaddlePaddle, focado em várias tarefas cruciais de voz e áudio. O projeto ganhou o prêmio de Melhor Demonstração na NAACL2022 graças aos seus designs de modelos mais recentes e influentes.

Principais Características

🚀 Fácil de Usar

  • Instalação de Baixo Limiar: Oferece métodos de instalação simples
  • Ferramentas de Linha de Comando: Suporta CLI, Servidor e Servidor de Streaming para início rápido
  • Múltiplas Interfaces: Suporta métodos de uso de linha de comando e API Python

🏆 Tecnologia de Ponta

  • Alinhado com a Tecnologia Mais Recente: Fornece modelos de alta velocidade e ultraleves e tecnologia de ponta
  • Sistema de Streaming: Oferece sistemas de ASR e TTS de streaming prontos para produção
  • Aprendizado Auto-Supervisionado: Integra modelos de aprendizado auto-supervisionado

💯 Front-End de Voz Chinês

  • Processamento de Regularização: Inclui padronização de texto e conversão de grafema para fonema (G2P)
  • Processamento de Polifonia: Suporta polifonia e processamento de inflexão
  • Regras Linguísticas: Usa regras linguísticas personalizadas para adaptar-se ao contexto chinês

Principais Módulos de Funcionalidade

1. Reconhecimento de Voz (ASR)

  • Modelos Suportados: DeepSpeech2, Transformer, Conformer, U2, etc.
  • Suporte Multilíngue: Chinês, Inglês, Misto Chinês-Inglês
  • Reconhecimento em Tempo Real: Suporta reconhecimento de voz em streaming
  • Restauração de Pontuação: Adiciona automaticamente sinais de pontuação

2. Síntese de Voz (TTS)

  • Modelos Acústicos: Tacotron2, FastSpeech2, SpeedySpeech, VITS, etc.
  • Vocoders: WaveFlow, PWGAN, HiFiGAN, Multi Band MelGAN, etc.
  • Suporte Multilíngue: Chinês, Inglês, Misto Chinês-Inglês, Cantonês
  • Clonagem de Voz: Suporta clonagem e ajuste fino de voz

3. Verificação de Locutor (VPR)

  • Reconhecimento de Locutor: Baseado no modelo ECAPA-TDNN
  • Extração de Impressão Vocal: Extração de características de impressão vocal de nível industrial
  • Separação de Locutor: Suporta tarefas de separação de locutor

4. Tradução de Voz (ST)

  • Tradução Ponta a Ponta: Tradução de voz de inglês para chinês
  • Pré-Treinamento Multimodal: Combina características acústicas e de texto

5. Classificação de Áudio (CLS)

  • Classificação de Domínio Aberto: Classificação de áudio de 527 classes baseada no conjunto de dados AudioSet
  • Modelos PANN: Usa redes neurais de áudio pré-treinadas

6. Reconhecimento de Palavras-Chave (KWS)

  • Detecção de Palavra de Ativação: Suporta palavras de ativação personalizadas
  • Modelos Leves: Adequado para implantação em dispositivos móveis

Arquitetura Técnica

Suporte a Modelos

  • Aprendizado Auto-Supervisionado: Wav2vec2.0, HuBERT, WavLM, etc.
  • Mecanismo de Atenção: Arquiteturas Transformer, Conformer
  • Treinamento Ponta a Ponta: Modelos unificados U2, U2++, etc.
  • Treinamento Adversarial: Modelos generativos VITS, StarGAN, etc.

Suporte a Conjuntos de Dados

  • Conjuntos de Dados ASR: Aishell, LibriSpeech, CommonVoice, etc.
  • Conjuntos de Dados TTS: LJSpeech, CSMSC, VCTK, etc.
  • Dados Multilíngues: Suporta conjuntos de dados mistos chinês-inglês

Instalação e Uso

Requisitos do Sistema

  • Sistema Operacional: Linux (recomendado), Windows, Mac OSX
  • Versão do Python: ≥ 3.8
  • Compilador: gcc ≥ 4.8.5
  • Framework Dependente: PaddlePaddle

Métodos de Instalação

1. Instalação via pip

pip install paddlespeech

2. Instalação a partir do código fonte (recomendado)

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

Experiência Rápida

Exemplo de Reconhecimento de Voz

# Via linha de comando
paddlespeech asr --lang zh --input zh.wav

# Via API Python
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="zh.wav")

Exemplo de Síntese de Voz

# Via linha de comando
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav

# Via API Python
from paddlespeech.cli.tts.infer import TTSExecutor
tts = TTSExecutor()
tts(text="今天天气十分不错。", output="output.wav")

Implantação de Serviço

Servidor de Voz

PaddleSpeech oferece uma solução completa de servidor:

Iniciar o Serviço

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

Chamada do Cliente

# Serviço ASR
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# Serviço TTS
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好,欢迎使用百度飞桨语音合成服务。"

Serviço de Streaming

Suporta reconhecimento e síntese de voz em streaming em tempo real:

# ASR de Streaming
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# TTS de Streaming
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --input "您好,欢迎使用百度飞桨语音合成服务。"

Casos de Uso

Aplicações Industriais

  • Atendimento ao Cliente Inteligente: Reconhecimento de voz + Síntese de voz
  • Assistente de Voz: Detecção de palavra de ativação + Sistema de diálogo
  • Criação de Conteúdo: Clonagem de voz + Síntese multilíngue
  • Serviços de Acessibilidade: Voz para texto + Texto para voz

Pesquisa Acadêmica

  • Pré-Treinamento Multimodal: Modelos ERNIE-SAT, etc.
  • Tradução de Voz: Inglês para chinês ponta a ponta
  • Reconhecimento de Locutor: Reconhecimento e verificação de impressão vocal
  • Análise de Áudio: Classificação de áudio e reconhecimento de cena

Vantagens Técnicas

1. Desempenho do Modelo

  • Efeito SOTA: Alcança níveis líderes do setor em várias tarefas
  • Implantação Leve: Suporta dispositivos móveis e de borda
  • Processamento em Tempo Real: Atende às necessidades de interação em tempo real

2. Facilidade de Uso

  • Implantação com Um Clique: Processos simplificados de instalação e configuração
  • Documentação Rica: Instruções de uso e exemplos completos
  • Suporte da Comunidade: Comunidade de desenvolvedores ativa

3. Escalabilidade

  • Design Modular: Suporta modelos e tarefas personalizadas
  • Suporte Multilíngue: Expansão contínua da cobertura de idiomas
  • Implantação Multiplataforma: Suporta vários ambientes de implantação

Comunidade e Ecossistema

Comunidade de Código Aberto

  • GitHub Stars: Mais de 10k estrelas
  • Contribuidores: Desenvolvedores de todo o mundo
  • Projetos da Comunidade: Projetos derivados baseados em PaddleSpeech

Projetos Relacionados

  • PaddleBoBo: Geração de voz de apresentador virtual
  • VTuberTalk: Ferramenta de clonagem de voz de vídeo
  • FastASR: Implementação de inferência C++
  • VoiceTyping: Ferramenta de entrada de voz em tempo real

Resumo

PaddleSpeech é um kit de ferramentas de voz abrangente e fácil de usar, que abrange várias tarefas principais, como reconhecimento de voz, síntese de voz, verificação de locutor, tradução de voz, etc. Através de design modular e ricos modelos pré-treinados, fornece aos desenvolvedores e pesquisadores poderosas soluções de IA de voz. Seja para pesquisa acadêmica ou aplicações industriais, o PaddleSpeech pode fornecer suporte técnico de alta qualidade e soluções completas.