google/gemma.cppView GitHub Homepage for Latest Official Releases

Google 開發的輕量級、獨立的 C++ 推理引擎，用於運行 Gemma 大語言模型

Apache-2.0C++gemma.cppgoogle 6.6k Last Updated: September 04, 2025

Gemma.cpp 專案詳細介紹

專案概述

Gemma.cpp 是由 Google 開發的輕量級、獨立 C++ 推理引擎，專門用於執行 Google 的 Gemma 大型語言模型。該專案於 2023 年秋季啟動，由 Austin Huang 和 Jan Wassenberg 發起，並於 2024 年 2 月正式發布。

核心特性

1. 輕量級設計

最小依賴: 設計為易於嵌入到其他專案中，具有最少的外部依賴
緊湊程式碼: 核心實作僅約 2K 行程式碼，支援工具約 4K 行程式碼
簡潔架構: 專注於簡單性和可修改性

2. 高效推理

CPU 優化: 針對 CPU 推理進行了專門優化
SIMD 支援: 透過 Google Highway 函式庫使用可攜式 SIMD 指令
低延遲: 專注於優化效能和低延遲推理

3. 多平台支援

跨平台: 支援 CPU 和 GPU 推理
多精度: 支援從 32 位元全精度到 4 位元低精度的多種精度級別
彈性部署: 可在各種硬體配置上執行

技術架構

推理引擎設計

Gemma.cpp 採用獨立的 C++ 實作，避免了複雜的依賴關係。其設計理念是：

專注於實驗和研究用例
探索 CPU 推理的設計空間
研究推理演算法的優化

量化支援

專案支援多種量化技術：

QAT 模型: 支援量化感知訓練（Quantization Aware Training）模型
GGUF 格式: 相容 GGUF 格式的量化模型
多精度級別: 從 4-bit 到 32-bit 的不同精度選擇

支援的模型

Gemma 模型系列

Gemma 3: 最新的 Gemma 3 系列模型
Gemma 3n: 專為行動裝置優化的架構
多參數規模: 支援不同參數量的模型變體

模型功能

多語言支援: 支援超過 140 種語言
長上下文: 支援 128k token 的上下文視窗
函數呼叫: 支援複雜任務的函數呼叫功能
多模態: 支援文字和視覺推理能力

使用場景

1. 研究與實驗

大型語言模型推理演算法研究
CPU 推理效能優化實驗
模型量化技術探索

2. 嵌入式應用

行動裝置上的 AI 推理
邊緣運算場景
資源受限環境的 AI 應用

3. 生產部署

高效能推理服務
即時 AI 應用
低延遲推理需求

安裝與使用

環境要求

C++ 編譯器支援
CMake 建置系統
適當的硬體配置（CPU/GPU）

基本使用流程

克隆專案儲存庫
建置推理引擎
下載模型權重
執行推理任務

程式碼範例

// 基本的推理程式碼結構
#include "gemma.h"

int main() {
    // 初始化模型
    // 載入權重
    // 執行推理
    return 0;
}

效能優勢

1. 高效記憶體使用

優化的記憶體管理
支援不同精度級別以平衡效能和記憶體使用
適合單 GPU 或 TPU 應用

2. 快速推理速度

專門優化的 CPU 推理路徑
SIMD 指令加速
低延遲回應

3. 彈性的部署選項

可在消費級 GPU 上執行
支援雲端和邊緣部署
易於整合到現有系統

生態系統整合

相容性

llama.cpp: 支援 GGUF 格式，可與 llama.cpp 生態系統整合
Kaggle: 模型權重在 Kaggle 上可用
開發者工具: 提供完整的開發者工具支援

社群支援

活躍的開源社群
持續的更新和改進
豐富的說明文件和教學

安全特性

ShieldGemma 2

專案還包含 ShieldGemma 2，一個基於 Gemma 3 的 4B 參數圖像安全檢查器：

危險內容偵測
性暴力內容識別
暴力內容過濾
可自訂的安全策略

總結

Gemma.cpp 是一個專業、高效的 C++ 推理引擎，為開發者提供了在各種環境中執行 Gemma 大型語言模型的能力。其輕量級設計、高效能特性和易於整合的特點，使其成為 AI 推理應用的理想選擇。無論是研究實驗還是生產部署，Gemma.cpp 都能提供可靠的解決方案。