Whisper.cpp は、OpenAI Whisper 自動音声認識 (ASR) モデルの高性能 C/C++ 移植版です。このプロジェクトは、元々 Python ベースの Whisper モデルを純粋な C/C++ コードで再実装し、依存関係がなく、高効率な音声認識機能を実現します。特に、リソースが限られた環境や組み込みデバイスでの実行に適しています。
モデル | ディスクサイズ | メモリ占有量 | 推論速度 | 精度 |
---|---|---|---|---|
tiny | 75 MiB | ~273 MB | 最速 | 基礎 |
base | 142 MiB | ~388 MB | 速い | 良好 |
small | 466 MiB | ~852 MB | 中程度 | 非常に良い |
medium | 1.5 GiB | ~2.1 GB | 遅い | 優秀 |
large | 2.9 GiB | ~3.9 GB | 遅い | 最高 |
# プロジェクトをクローン
git clone https://github.com/ggml-org/whisper.cpp.git
cd whisper.cpp
# プロジェクトをコンパイル
cmake -B build
cmake --build build --config Release
# モデルをダウンロード
./models/download-ggml-model.sh base.en
# 音声を転写
./build/bin/whisper-cli -f samples/jfk.wav -m models/ggml-base.en.bin
# モデルをダウンロード
docker run -it --rm -v $(pwd)/models:/models \
ghcr.io/ggml-org/whisper.cpp:main \
"./models/download-ggml-model.sh base /models"
# 音声を転写
docker run -it --rm \
-v $(pwd)/models:/models \
-v $(pwd)/audio:/audio \
ghcr.io/ggml-org/whisper.cpp:main \
"whisper-cli -m /models/ggml-base.bin -f /audio/sample.wav"
Whisper.cpp は、非常に優れた音声認識ソリューションです。OpenAI の Whisper モデルを C/C++ プラットフォームに移植し、高性能、低リソース消費、幅広いプラットフォーム互換性を実現しました。モバイルアプリケーション開発、組み込みシステム、大規模サーバーデプロイメントのいずれにおいても、whisper.cpp は信頼性が高く効率的な音声認識能力を提供できます。
このプロジェクトは、特に以下のシーンに適しています。