PaddlePaddle/PaddleSpeech View GitHub Homepage for Latest Official Releases

PaddleSpeech: um kit de ferramentas de voz fácil de usar, contendo modelos de aprendizado auto-supervisionado, ASR de última geração/streaming com pontuação, TTS de streaming com front-end de texto, sistema de verificação de falantes, tradução de voz ponta a ponta e reconhecimento de palavras-chave. Vencedor do prêmio de Melhor Demonstração na NAACL2022.

Apache-2.0PythonPaddleSpeechPaddlePaddle 12.3k Last Updated: September 28, 2025

PaddleSpeech 项目详细介绍

Visão Geral do Projeto

PaddleSpeech é um kit de ferramentas de código aberto para voz, desenvolvido com base na plataforma Baidu PaddlePaddle, focado em várias tarefas cruciais de voz e áudio. O projeto ganhou o prêmio de Melhor Demonstração na NAACL2022 graças aos seus designs de modelos mais recentes e influentes.

Principais Características

🚀 Fácil de Usar

Instalação de Baixo Limiar: Oferece métodos de instalação simples
Ferramentas de Linha de Comando: Suporta CLI, Servidor e Servidor de Streaming para início rápido
Múltiplas Interfaces: Suporta métodos de uso de linha de comando e API Python

🏆 Tecnologia de Ponta

Alinhado com a Tecnologia Mais Recente: Fornece modelos de alta velocidade e ultraleves e tecnologia de ponta
Sistema de Streaming: Oferece sistemas de ASR e TTS de streaming prontos para produção
Aprendizado Auto-Supervisionado: Integra modelos de aprendizado auto-supervisionado

💯 Front-End de Voz Chinês

Processamento de Regularização: Inclui padronização de texto e conversão de grafema para fonema (G2P)
Processamento de Polifonia: Suporta polifonia e processamento de inflexão
Regras Linguísticas: Usa regras linguísticas personalizadas para adaptar-se ao contexto chinês

Principais Módulos de Funcionalidade

1. Reconhecimento de Voz (ASR)

Modelos Suportados: DeepSpeech2, Transformer, Conformer, U2, etc.
Suporte Multilíngue: Chinês, Inglês, Misto Chinês-Inglês
Reconhecimento em Tempo Real: Suporta reconhecimento de voz em streaming
Restauração de Pontuação: Adiciona automaticamente sinais de pontuação

2. Síntese de Voz (TTS)

Modelos Acústicos: Tacotron2, FastSpeech2, SpeedySpeech, VITS, etc.
Vocoders: WaveFlow, PWGAN, HiFiGAN, Multi Band MelGAN, etc.
Suporte Multilíngue: Chinês, Inglês, Misto Chinês-Inglês, Cantonês
Clonagem de Voz: Suporta clonagem e ajuste fino de voz

3. Verificação de Locutor (VPR)

Reconhecimento de Locutor: Baseado no modelo ECAPA-TDNN
Extração de Impressão Vocal: Extração de características de impressão vocal de nível industrial
Separação de Locutor: Suporta tarefas de separação de locutor

4. Tradução de Voz (ST)

Tradução Ponta a Ponta: Tradução de voz de inglês para chinês
Pré-Treinamento Multimodal: Combina características acústicas e de texto

5. Classificação de Áudio (CLS)

Classificação de Domínio Aberto: Classificação de áudio de 527 classes baseada no conjunto de dados AudioSet
Modelos PANN: Usa redes neurais de áudio pré-treinadas

6. Reconhecimento de Palavras-Chave (KWS)

Detecção de Palavra de Ativação: Suporta palavras de ativação personalizadas
Modelos Leves: Adequado para implantação em dispositivos móveis

Arquitetura Técnica

Suporte a Modelos

Aprendizado Auto-Supervisionado: Wav2vec2.0, HuBERT, WavLM, etc.
Mecanismo de Atenção: Arquiteturas Transformer, Conformer
Treinamento Ponta a Ponta: Modelos unificados U2, U2++, etc.
Treinamento Adversarial: Modelos generativos VITS, StarGAN, etc.

Suporte a Conjuntos de Dados

Conjuntos de Dados ASR: Aishell, LibriSpeech, CommonVoice, etc.
Conjuntos de Dados TTS: LJSpeech, CSMSC, VCTK, etc.
Dados Multilíngues: Suporta conjuntos de dados mistos chinês-inglês

Instalação e Uso

Requisitos do Sistema

Sistema Operacional: Linux (recomendado), Windows, Mac OSX
Versão do Python: ≥ 3.8
Compilador: gcc ≥ 4.8.5
Framework Dependente: PaddlePaddle

Métodos de Instalação

1. Instalação via pip

pip install paddlespeech

2. Instalação a partir do código fonte (recomendado)

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

Experiência Rápida

Exemplo de Reconhecimento de Voz

# Via linha de comando
paddlespeech asr --lang zh --input zh.wav

# Via API Python
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="zh.wav")

Exemplo de Síntese de Voz

# Via linha de comando
paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！" --output output.wav

# Via API Python
from paddlespeech.cli.tts.infer import TTSExecutor
tts = TTSExecutor()
tts(text="今天天气十分不错。", output="output.wav")

Implantação de Serviço

Servidor de Voz

PaddleSpeech oferece uma solução completa de servidor:

Iniciar o Serviço

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

Chamada do Cliente

# Serviço ASR
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# Serviço TTS
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。"

Serviço de Streaming

Suporta reconhecimento e síntese de voz em streaming em tempo real:

# ASR de Streaming
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# TTS de Streaming
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --input "您好，欢迎使用百度飞桨语音合成服务。"

Casos de Uso

Aplicações Industriais

Atendimento ao Cliente Inteligente: Reconhecimento de voz + Síntese de voz
Assistente de Voz: Detecção de palavra de ativação + Sistema de diálogo
Criação de Conteúdo: Clonagem de voz + Síntese multilíngue
Serviços de Acessibilidade: Voz para texto + Texto para voz

Pesquisa Acadêmica

Pré-Treinamento Multimodal: Modelos ERNIE-SAT, etc.
Tradução de Voz: Inglês para chinês ponta a ponta
Reconhecimento de Locutor: Reconhecimento e verificação de impressão vocal
Análise de Áudio: Classificação de áudio e reconhecimento de cena

Vantagens Técnicas

1. Desempenho do Modelo

Efeito SOTA: Alcança níveis líderes do setor em várias tarefas
Implantação Leve: Suporta dispositivos móveis e de borda
Processamento em Tempo Real: Atende às necessidades de interação em tempo real

2. Facilidade de Uso

Implantação com Um Clique: Processos simplificados de instalação e configuração
Documentação Rica: Instruções de uso e exemplos completos
Suporte da Comunidade: Comunidade de desenvolvedores ativa

3. Escalabilidade

Design Modular: Suporta modelos e tarefas personalizadas
Suporte Multilíngue: Expansão contínua da cobertura de idiomas
Implantação Multiplataforma: Suporta vários ambientes de implantação

Comunidade e Ecossistema

Comunidade de Código Aberto

GitHub Stars: Mais de 10k estrelas
Contribuidores: Desenvolvedores de todo o mundo
Projetos da Comunidade: Projetos derivados baseados em PaddleSpeech

Projetos Relacionados

PaddleBoBo: Geração de voz de apresentador virtual
VTuberTalk: Ferramenta de clonagem de voz de vídeo
FastASR: Implementação de inferência C++
VoiceTyping: Ferramenta de entrada de voz em tempo real

Resumo

PaddleSpeech é um kit de ferramentas de voz abrangente e fácil de usar, que abrange várias tarefas principais, como reconhecimento de voz, síntese de voz, verificação de locutor, tradução de voz, etc. Através de design modular e ricos modelos pré-treinados, fornece aos desenvolvedores e pesquisadores poderosas soluções de IA de voz. Seja para pesquisa acadêmica ou aplicações industriais, o PaddleSpeech pode fornecer suporte técnico de alta qualidade e soluções completas.