Whisper.cpp는 OpenAI Whisper 자동 음성 인식(ASR) 모델의 고성능 C/C++ 포팅 버전입니다. 이 프로젝트는 원래 Python 기반의 Whisper 모델을 순수 C/C++ 코드로 재구현하여 의존성 없이 고효율의 음성 인식 기능을 구현하며, 특히 리소스가 제한된 환경과 임베디드 장치에서 실행하기에 적합합니다.
모델 | 디스크 크기 | 메모리 점유율 | 추론 속도 | 정확도 |
---|---|---|---|---|
tiny | 75 MiB | ~273 MB | 가장 빠름 | 기본 |
base | 142 MiB | ~388 MB | 빠름 | 양호 |
small | 466 MiB | ~852 MB | 중간 | 매우 좋음 |
medium | 1.5 GiB | ~2.1 GB | 느림 | 우수 |
large | 2.9 GiB | ~3.9 GB | 느림 | 최고 |
# 프로젝트 복제
git clone https://github.com/ggml-org/whisper.cpp.git
cd whisper.cpp
# 프로젝트 컴파일
cmake -B build
cmake --build build --config Release
# 모델 다운로드
./models/download-ggml-model.sh base.en
# 오디오 전사
./build/bin/whisper-cli -f samples/jfk.wav -m models/ggml-base.en.bin
# 모델 다운로드
docker run -it --rm -v $(pwd)/models:/models \
ghcr.io/ggml-org/whisper.cpp:main \
"./models/download-ggml-model.sh base /models"
# 오디오 전사
docker run -it --rm \
-v $(pwd)/models:/models \
-v $(pwd)/audio:/audio \
ghcr.io/ggml-org/whisper.cpp:main \
"whisper-cli -m /models/ggml-base.bin -f /audio/sample.wav"
Whisper.cpp는 매우 훌륭한 음성 인식 솔루션입니다. OpenAI의 Whisper 모델을 C/C++ 플랫폼으로 성공적으로 포팅하여 고성능, 낮은 리소스 소비 및 광범위한 플랫폼 호환성을 구현했습니다. 모바일 응용 프로그램 개발, 임베디드 시스템 또는 대규모 서버 배포에 사용되든 whisper.cpp는 안정적이고 효율적인 음성 인식 기능을 제공할 수 있습니다.
이 프로젝트는 특히 다음과 같은 시나리오에 적합합니다.