ggml-org/whisper.cppView GitHub Homepage for Latest Official Releases

Porte de alto desempenho em C/C++ do modelo de reconhecimento de fala OpenAI Whisper, com suporte para inferência pura em CPU e implantação multiplataforma

MITC++whisper.cppggml-org 43.4k Last Updated: September 20, 2025

Detalhes do Projeto Whisper.cpp

Visão Geral do Projeto

Whisper.cpp é uma porta de alto desempenho em C/C++ do modelo de reconhecimento automático de fala (ASR) Whisper da OpenAI. Este projeto reimplementa o modelo Whisper, originalmente baseado em Python, em código C/C++ puro, alcançando reconhecimento de fala sem dependências e de alta eficiência, especialmente adequado para execução em ambientes com recursos limitados e dispositivos embarcados.

Endereço do Projeto: https://github.com/ggml-org/whisper.cpp

Funcionalidades e Características Principais

🚀 Características de Otimização de Desempenho

Motor de Inferência Eficiente

Implementação em C/C++ Puro: Sem dependências de Python, inicialização rápida, baixo consumo de memória
Alocação de Memória Zero em Tempo de Execução: Otimização do gerenciamento de memória, evitando fragmentação de memória em tempo de execução
Suporte a Precisão Mista: Cálculo de precisão mista F16/F32, equilibrando precisão e desempenho
Quantização de Inteiros: Suporte a vários métodos de quantização (Q5_0, Q8_0, etc.), reduzindo significativamente o tamanho do modelo e o uso de memória

Suporte à Aceleração de Hardware

Otimização para Apple Silicon:
- Otimização do conjunto de instruções ARM NEON
- Integração do framework Accelerate
- Aceleração de GPU Metal
- Suporte ao Core ML ANE (Motor Neural)
Otimização para Arquitetura x86: Aceleração do conjunto de instruções AVX/AVX2
Suporte à Aceleração de GPU:
- Suporte a NVIDIA CUDA
- Aceleração de GPU Vulkan multiplataforma
- Suporte a OpenCL
Suporte a Hardware Dedicado:
- Aceleração de inferência Intel OpenVINO
- Suporte a Huawei Ascend NPU
- Suporte a GPU Moore Threads

🌍 Suporte Multiplataforma

Sistemas Operacionais Suportados

Plataformas Desktop: macOS (Intel/Apple Silicon), Linux, Windows, FreeBSD
Plataformas Móveis: iOS, Android
Embarcados: Raspberry Pi e outros dispositivos ARM
Plataforma Web: Suporte a WebAssembly, pode ser executado em navegadores

Vinculações Multilíngues

Suporte Nativo: C/C++, Objective-C
Vinculações Oficiais: JavaScript, Go, Java, Ruby
Vinculações da Comunidade: Python, Rust, C#/.NET, R, Swift, Unity

🎯 Módulos de Funcionalidade Essenciais

Motor de Reconhecimento de Fala

Transcrição em Tempo Real: Suporte ao reconhecimento de fala em tempo real do microfone
Processamento em Lote: Suporte à transcrição em lote de arquivos de áudio
Suporte Multilíngue: Suporte ao reconhecimento de fala em 99 idiomas
Separação de Locutores: Suporte a uma função simples de identificação de locutores

Capacidades de Processamento de Áudio

Suporte a Múltiplos Formatos: Suporte a vários formatos de áudio através da integração com FFmpeg
Adaptação da Taxa de Amostragem: Processamento automático de entradas de áudio com diferentes taxas de amostragem
Pré-processamento de Áudio: Funcionalidade integrada de normalização e pré-processamento de áudio

Opções de Formato de Saída

Carimbos de Tempo: Informações de carimbo de tempo com precisão de milissegundos
Pontuação de Confiança: Fornece avaliação de confiança no nível da palavra
Vários Formatos de Saída: Suporte a formatos como texto, JSON, legendas SRT, etc.
Modo Karaokê: Suporte para gerar saídas de vídeo com destaque sincronizado

🔧 Características da Arquitetura Técnica

Estrutura do Modelo

Arquitetura Codificador-Decodificador: Mantém a estrutura transformer original do modelo Whisper
Formato GGML Personalizado: Formato de modelo binário otimizado, contendo todos os componentes necessários
Seleção do Tamanho do Modelo: Várias especificações de tiny (39MB) a large (1.55GB)

Gerenciamento de Memória

Alocação Estática de Memória: Aloca toda a memória necessária na inicialização
Mapeamento de Memória: Método eficiente de carregamento de arquivos de modelo
Otimização de Cache: Mecanismo inteligente de cache de resultados de cálculo

Principais Casos de Uso

🎤 Aplicações de Voz em Tempo Real

Assistentes de Voz: Construir aplicativos de assistente de voz offline
Legendas em Tempo Real: Fornecer legendas em tempo real para videoconferências e transmissões ao vivo
Notas de Voz: Aplicativo de notas de voz para texto em tempo real

📱 Aplicações Móveis

Transcrição Offline: Implementar reconhecimento de fala totalmente offline em dispositivos móveis
Entrada de Voz: Fornecer funcionalidade de entrada de voz para aplicativos móveis
Tradução Multilíngue: Implementar tradução de voz combinada com modelos de tradução

🖥️ Aplicações Desktop e Servidor

Processamento em Lote de Arquivos de Áudio: Transcrição automática de grandes lotes de arquivos de áudio
Produção de Conteúdo: Gerar legendas automaticamente para podcasts e conteúdo de vídeo
Sistemas de Atendimento ao Cliente: Transcrição e análise automática da voz do atendimento telefônico

Testes de Benchmark de Desempenho

Comparação de Diferentes Especificações de Modelo

Modelo	Tamanho em Disco	Uso de Memória	Velocidade de Inferência	Precisão
tiny	75 MiB	~273 MB	Mais Rápido	Básico
base	142 MiB	~388 MB	Rápido	Bom
small	466 MiB	~852 MB	Médio	Muito Bom
medium	1.5 GiB	~2.1 GB	Mais Lento	Excelente
large	2.9 GiB	~3.9 GB	Lento	Melhor

Efeitos da Aceleração de Hardware

Apple M1/M2: A aceleração de GPU Metal pode aumentar o desempenho em 3-5 vezes
NVIDIA GPU: A aceleração CUDA pode aumentar o desempenho em 5-10 vezes
Intel CPU: O conjunto de instruções AVX2 pode aumentar o desempenho em 2-3 vezes

Exemplo de Início Rápido

Compilação e Uso Básico

# Clonar o projeto
git clone https://github.com/ggml-org/whisper.cpp.git
cd whisper.cpp

# Compilar o projeto
cmake -B build
cmake --build build --config Release

# Baixar o modelo
./models/download-ggml-model.sh base.en

# Transcrever áudio
./build/bin/whisper-cli -f samples/jfk.wav -m models/ggml-base.en.bin

Uso com Docker

# Baixar o modelo
docker run -it --rm -v $(pwd)/models:/models \
  ghcr.io/ggml-org/whisper.cpp:main \
  "./models/download-ggml-model.sh base /models"

# Transcrever áudio
docker run -it --rm \
  -v $(pwd)/models:/models \
  -v $(pwd)/audio:/audio \
  ghcr.io/ggml-org/whisper.cpp:main \
  "whisper-cli -m /models/ggml-base.bin -f /audio/sample.wav"

Vantagens do Projeto

✅ Vantagens Técnicas

Alto Desempenho: Implementação nativa em C/C++, excelente desempenho
Baixo Consumo de Recursos: Alta eficiência no uso de memória e CPU
Sem Dependências: Não requer Python ou outro ambiente de tempo de execução
Multiplataforma: Suporta quase todas as principais plataformas
Aceleração de Hardware: Utiliza totalmente os recursos de aceleração de hardware modernos

✅ Vantagens Práticas

Fácil de Integrar: Fornece API em estilo C, fácil de integrar em projetos existentes
Implantação Simples: Arquivo executável único, implantação fácil
Execução Offline: Funciona completamente offline, protegendo a privacidade
Código Aberto e Gratuito: Licença MIT, amigável para uso comercial
Manutenção Ativa: Comunidade ativa, atualizações frequentes

Limitações e Precauções

⚠️ Limitações Técnicas

Formato de Áudio: Suporta principalmente o formato WAV de 16 bits, outros formatos precisam ser convertidos
Modelo de Linguagem: Baseado em dados de treinamento, o reconhecimento de certos dialetos e sotaques pode não ser preciso o suficiente
Tempo Real: Embora bem otimizado, pode não atingir o processamento em tempo real em dispositivos de baixo custo
Requisitos de Memória: Modelos grandes ainda exigem um grande espaço de memória

💡 Recomendações de Uso

Seleção do Modelo: Selecione a especificação de modelo apropriada com base nos requisitos de precisão e desempenho
Otimização de Hardware: Utilize totalmente os recursos de aceleração de hardware da plataforma de destino
Pré-processamento de Áudio: Garanta a qualidade do áudio de entrada para obter o melhor efeito de reconhecimento
Uso de Quantização: Considere usar modelos quantizados em ambientes com recursos limitados

Ecossistema e Expansão do Projeto

Projetos Relacionados

whisper.spm: Versão Swift Package Manager
whisper.rn: Vinculação React Native
whisper.unity: Integração com o motor de jogo Unity
Várias Vinculações de Linguagem: Suporte a Python, Rust, Go e muitas outras linguagens

Conclusão

Whisper.cpp é uma solução de reconhecimento de fala extremamente excelente, que portou com sucesso o modelo Whisper da OpenAI para a plataforma C/C++, alcançando alto desempenho, baixo consumo de recursos e ampla compatibilidade de plataforma. Seja para desenvolvimento de aplicativos móveis, sistemas embarcados ou implantações de servidores em larga escala, o whisper.cpp pode fornecer recursos de reconhecimento de fala confiáveis e eficientes.

Este projeto é particularmente adequado para os seguintes cenários:

Aplicativos que precisam de reconhecimento de fala offline
Projetos com requisitos rigorosos de desempenho e consumo de recursos
Soluções de reconhecimento de fala de implantação multiplataforma
Desenvolvedores que desejam integrar em projetos C/C++ existentes