ggml-org/whisper.cppView GitHub Homepage for Latest Official Releases

Portage C/C++ haute performance du modèle de reconnaissance vocale OpenAI Whisper, prenant en charge l'inférence CPU pure et le déploiement multiplateforme.

MITC++whisper.cppggml-org 43.4k Last Updated: September 20, 2025

Présentation détaillée du projet Whisper.cpp

Aperçu du projet

Whisper.cpp est une version C/C++ haute performance du modèle de reconnaissance vocale automatique (ASR) Whisper d'OpenAI. Ce projet réimplémente le modèle Whisper original, basé sur Python, en code C/C++ pur, offrant une reconnaissance vocale sans dépendances et très efficace, particulièrement adaptée aux environnements à ressources limitées et aux appareils embarqués.

Adresse du projet: https://github.com/ggml-org/whisper.cpp

Fonctionnalités et caractéristiques principales

🚀 Optimisations de performance

Moteur d'inférence efficace

Implémentation en C/C++ pur: Pas de dépendance à Python, démarrage rapide, faible empreinte mémoire
Allocation de mémoire nulle au moment de l'exécution: Optimisation de la gestion de la mémoire, évitant la fragmentation de la mémoire au moment de l'exécution
Prise en charge de la précision mixte: Calculs en précision mixte F16/F32, équilibrant précision et performance
Quantification entière: Prise en charge de diverses méthodes de quantification (Q5_0, Q8_0, etc.), réduisant considérablement la taille du modèle et l'utilisation de la mémoire

Prise en charge de l'accélération matérielle

Optimisation Apple Silicon:
- Optimisation du jeu d'instructions ARM NEON
- Intégration du framework Accelerate
- Accélération GPU Metal
- Prise en charge de Core ML ANE (moteur neuronal)
Optimisation de l'architecture x86: Accélération du jeu d'instructions AVX/AVX2
Prise en charge de l'accélération GPU:
- Prise en charge de NVIDIA CUDA
- Accélération GPU multiplateforme Vulkan
- Prise en charge d'OpenCL
Prise en charge du matériel dédié:
- Accélération d'inférence Intel OpenVINO
- Prise en charge de Huawei Ascend NPU
- Prise en charge du GPU Moore Threads

🌍 Prise en charge multiplateforme

Systèmes d'exploitation pris en charge

Plateformes de bureau: macOS (Intel/Apple Silicon), Linux, Windows, FreeBSD
Plateformes mobiles: iOS, Android
Embarqué: Raspberry Pi et autres appareils ARM
Plateforme Web: Prise en charge de WebAssembly, exécutable dans un navigateur

Liaisons multilingues

Prise en charge native: C/C++, Objective-C
Liaisons officielles: JavaScript, Go, Java, Ruby
Liaisons communautaires: Python, Rust, C#/.NET, R, Swift, Unity

🎯 Modules fonctionnels principaux

Moteur de reconnaissance vocale

Transcription en temps réel: Prise en charge de la reconnaissance vocale en temps réel via microphone
Traitement par lots: Prise en charge de la transcription par lots de fichiers audio
Prise en charge multilingue: Prise en charge de la reconnaissance vocale dans 99 langues
Séparation des locuteurs: Prise en charge d'une fonctionnalité simple d'identification des locuteurs

Capacités de traitement audio

Prise en charge de plusieurs formats: Prise en charge de divers formats audio via l'intégration de FFmpeg
Adaptation du taux d'échantillonnage: Traitement automatique des entrées audio avec différents taux d'échantillonnage
Prétraitement audio: Fonctionnalités intégrées de normalisation et de prétraitement audio

Options de format de sortie

Horodatage: Informations d'horodatage précises à la milliseconde
Score de confiance: Fournit une évaluation de la confiance au niveau du mot
Plusieurs formats de sortie: Prise en charge des formats texte, JSON, sous-titres SRT, etc.
Mode Karaoké: Prise en charge de la génération de sorties vidéo synchronisées avec mise en évidence

🔧 Caractéristiques de l'architecture technique

Structure du modèle

Architecture encodeur-décodeur: Maintient la structure de transformateur du modèle Whisper original
Format GGML personnalisé: Format de modèle binaire optimisé, contenant tous les composants nécessaires
Sélection de la taille du modèle: Plusieurs tailles disponibles, de tiny (39 Mo) à large (1,55 Go)

Gestion de la mémoire

Allocation de mémoire statique: Allocation de toute la mémoire nécessaire au démarrage
Mappage de la mémoire: Méthode efficace de chargement des fichiers de modèle
Optimisation du cache: Mécanisme intelligent de mise en cache des résultats de calcul

Principaux cas d'utilisation

🎤 Applications vocales en temps réel

Assistants vocaux: Construction d'applications d'assistants vocaux hors ligne
Sous-titres en temps réel: Fournir des sous-titres en temps réel pour les visioconférences et les diffusions en direct
Notes vocales: Applications de notes vocales en temps réel convertissant la parole en texte

📱 Applications mobiles

Transcription hors ligne: Implémentation de la reconnaissance vocale entièrement hors ligne sur les appareils mobiles
Saisie vocale: Fournir une fonctionnalité de saisie vocale pour les applications mobiles
Traduction multilingue: Combinaison avec des modèles de traduction pour réaliser la traduction vocale

🖥️ Applications de bureau et serveur

Traitement par lots de fichiers audio: Transcription automatique de grands lots de fichiers audio
Production de contenu: Génération automatique de sous-titres pour les podcasts et le contenu vidéo
Systèmes de service client: Transcription et analyse automatiques de la voix des agents du service client téléphonique

Tests de performance

Comparaison des différentes tailles de modèles

Modèle	Taille sur le disque	Utilisation de la mémoire	Vitesse d'inférence	Précision
tiny	75 Mio	~273 Mo	La plus rapide	Basique
base	142 Mio	~388 Mo	Rapide	Bonne
small	466 Mio	~852 Mo	Moyenne	Très bonne
medium	1,5 Gio	~2,1 Go	Plus lente	Excellente
large	2,9 Gio	~3,9 Go	Lente	Optimale

Effet de l'accélération matérielle

Apple M1/M2: L'accélération GPU Metal peut améliorer les performances de 3 à 5 fois
NVIDIA GPU: L'accélération CUDA peut améliorer les performances de 5 à 10 fois
Intel CPU: Le jeu d'instructions AVX2 peut améliorer les performances de 2 à 3 fois

Exemple de démarrage rapide

Compilation et utilisation de base

# Cloner le projet
git clone https://github.com/ggml-org/whisper.cpp.git
cd whisper.cpp

# Compiler le projet
cmake -B build
cmake --build build --config Release

# Télécharger le modèle
./models/download-ggml-model.sh base.en

# Transcrire l'audio
./build/bin/whisper-cli -f samples/jfk.wav -m models/ggml-base.en.bin

Utilisation avec Docker

# Télécharger le modèle
docker run -it --rm -v $(pwd)/models:/models \
  ghcr.io/ggml-org/whisper.cpp:main \
  "./models/download-ggml-model.sh base /models"

# Transcrire l'audio
docker run -it --rm \
  -v $(pwd)/models:/models \
  -v $(pwd)/audio:/audio \
  ghcr.io/ggml-org/whisper.cpp:main \
  "whisper-cli -m /models/ggml-base.bin -f /audio/sample.wav"

Avantages du projet

✅ Avantages techniques

Haute performance: Implémentation native en C/C++, performances exceptionnelles
Faible consommation de ressources: Utilisation efficace de la mémoire et du CPU
Sans dépendances: Pas besoin de Python ou d'autres environnements d'exécution
Multiplateforme: Prise en charge de presque toutes les plateformes principales
Accélération matérielle: Exploitation complète des capacités d'accélération matérielle modernes

✅ Avantages pratiques

Facile à intégrer: Fournit une API de style C, facile à intégrer dans les projets existants
Déploiement simple: Fichier exécutable unique, déploiement facile
Fonctionnement hors ligne: Fonctionne entièrement hors ligne, protégeant la confidentialité
Open source et gratuit: Licence MIT, compatible avec un usage commercial
Maintenance active: Communauté active, mises à jour fréquentes

Limites et précautions

⚠️ Limitations techniques

Format audio: Prend principalement en charge le format WAV 16 bits, les autres formats nécessitent une conversion
Modèle de langage: Basé sur les données d'entraînement, la reconnaissance de certains dialectes et accents peut être moins précise
Temps réel: Bien qu'optimisé, le traitement en temps réel peut ne pas être possible sur les appareils bas de gamme
Besoin en mémoire: Les grands modèles nécessitent toujours un espace mémoire important

💡 Conseils d'utilisation

Sélection du modèle: Choisir la taille de modèle appropriée en fonction des besoins de précision et de performance
Optimisation matérielle: Exploiter pleinement les capacités d'accélération matérielle de la plateforme cible
Prétraitement audio: S'assurer de la qualité de l'audio d'entrée pour obtenir les meilleurs résultats de reconnaissance
Utilisation de la quantification: Envisager d'utiliser des modèles quantifiés dans les environnements à ressources limitées

Écosystème et extensions du projet

Projets connexes

whisper.spm: Version Swift Package Manager
whisper.rn: Liaison React Native
whisper.unity: Intégration du moteur de jeu Unity
Diverses liaisons linguistiques: Prise en charge de Python, Rust, Go et de nombreuses autres langues

Conclusion

Whisper.cpp est une solution de reconnaissance vocale extrêmement performante qui a réussi à porter le modèle Whisper d'OpenAI sur la plateforme C/C++, offrant des performances élevées, une faible consommation de ressources et une large compatibilité de plateforme. Que ce soit pour le développement d'applications mobiles, les systèmes embarqués ou les déploiements de serveurs à grande échelle, whisper.cpp peut fournir des capacités de reconnaissance vocale fiables et efficaces.

Ce projet est particulièrement adapté aux scénarios suivants :

Applications nécessitant une reconnaissance vocale hors ligne
Projets ayant des exigences strictes en matière de performance et de consommation de ressources
Solutions de reconnaissance vocale déployées sur plusieurs plateformes
Développeurs souhaitant intégrer la reconnaissance vocale dans des projets C/C++ existants