Whisper.cpp est une version C/C++ haute performance du modèle de reconnaissance vocale automatique (ASR) Whisper d'OpenAI. Ce projet réimplémente le modèle Whisper original, basé sur Python, en code C/C++ pur, offrant une reconnaissance vocale sans dépendances et très efficace, particulièrement adaptée aux environnements à ressources limitées et aux appareils embarqués.
Modèle | Taille sur le disque | Utilisation de la mémoire | Vitesse d'inférence | Précision |
---|---|---|---|---|
tiny | 75 Mio | ~273 Mo | La plus rapide | Basique |
base | 142 Mio | ~388 Mo | Rapide | Bonne |
small | 466 Mio | ~852 Mo | Moyenne | Très bonne |
medium | 1,5 Gio | ~2,1 Go | Plus lente | Excellente |
large | 2,9 Gio | ~3,9 Go | Lente | Optimale |
# Cloner le projet
git clone https://github.com/ggml-org/whisper.cpp.git
cd whisper.cpp
# Compiler le projet
cmake -B build
cmake --build build --config Release
# Télécharger le modèle
./models/download-ggml-model.sh base.en
# Transcrire l'audio
./build/bin/whisper-cli -f samples/jfk.wav -m models/ggml-base.en.bin
# Télécharger le modèle
docker run -it --rm -v $(pwd)/models:/models \
ghcr.io/ggml-org/whisper.cpp:main \
"./models/download-ggml-model.sh base /models"
# Transcrire l'audio
docker run -it --rm \
-v $(pwd)/models:/models \
-v $(pwd)/audio:/audio \
ghcr.io/ggml-org/whisper.cpp:main \
"whisper-cli -m /models/ggml-base.bin -f /audio/sample.wav"
Whisper.cpp est une solution de reconnaissance vocale extrêmement performante qui a réussi à porter le modèle Whisper d'OpenAI sur la plateforme C/C++, offrant des performances élevées, une faible consommation de ressources et une large compatibilité de plateforme. Que ce soit pour le développement d'applications mobiles, les systèmes embarqués ou les déploiements de serveurs à grande échelle, whisper.cpp peut fournir des capacités de reconnaissance vocale fiables et efficaces.
Ce projet est particulièrement adapté aux scénarios suivants :