huggingface/huggingface-gemma-recipesPlease refer to the latest official releases for information GitHub Homepage

Hugging Face官方的Gemma模型快速入門教程庫，提供推理、微調等多種實用腳本和筆記本

MITPython 11huggingfacehuggingface-gemma-recipes Last Updated: 2025-06-26

Hugging Face Gemma Recipes 項目詳細介紹

項目概述

huggingface-gemma-recipes 是 Hugging Face 官方維護的一個開源項目，旨在為用戶提供與 Google Gemma 系列模型相關的最小化示例代碼和教程。該項目的核心目標是幫助開發者快速上手 Gemma 模型的推理、微調和各種實際應用場景。

項目特色

🚀 快速入門

提供最簡化的代碼示例，降低學習門檻
支持多種模態的輸入處理（文本、圖像、音頻）
集成了最新的 Transformers 庫功能

🎯 多模態支持

該項目支持 Gemma 3 系列模型的多模態能力：

純文本處理：傳統的文本生成和問答
圖像理解：圖像描述、視覺問答
音頻處理：語音轉文本、音頻分析
多模態交互：文本、圖像、音頻的混合輸入

核心功能

1. 模型推理

項目提供了統一的模型推理接口，支持快速加載和使用 Gemma 模型：

from transformers import AutoProcessor, AutoModelForImageTextToText
import torch

model_id = "google/gemma-3n-e4b-it"  # 或 google/gemma-3n-e2b-it
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(model_id).to(device)

def model_generation(model, messages):
    inputs = processor.apply_chat_template(
        messages,
        add_generation_prompt=True,
        tokenize=True,
        return_dict=True,
        return_tensors="pt",
    )
    input_len = inputs["input_ids"].shape[-1]
    inputs = inputs.to(model.device, dtype=model.dtype)
    
    with torch.inference_mode():
        generation = model.generate(**inputs, max_new_tokens=32, disable_compile=False)
        generation = generation[:, input_len:]
        decoded = processor.batch_decode(generation, skip_special_tokens=True)
        print(decoded[0])

2. 使用示例

純文本處理

# 文本問答
messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "What is the capital of France?"}
        ]
    }
]
model_generation(model, messages)

音頻處理

# 語音轉文本
messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Transcribe the following speech segment in English:"},
            {"type": "audio", "audio": "https://huggingface.co/datasets/ariG23498/demo-data/resolve/main/speech.wav"},
        ]
    }
]
model_generation(model, messages)

圖像理解

# 圖像描述
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/ariG23498/demo-data/resolve/main/airplane.jpg"},
            {"type": "text", "text": "Describe this image."}
        ]
    }
]
model_generation(model, messages)

3. 模型微調

項目提供了多種微調方案和腳本：

微調資源

[Fine tuning Gemma 3n on T4]: 專門針對 T4 GPU 的微調教程
[Fine tuning Gemma 3n on images]: 圖像理解任務的微調腳本
[Fine tuning Gemma 3n on audio]: 音頻處理任務的微調腳本
[Fine tuning Gemma 3n on images using TRL]: 基於 TRL 庫的圖像微調方案

微調環境配置

# 安裝依賴
$ pip install -U -q -r requirements.txt

安裝與使用

系統要求

Python 3.8+
PyTorch 2.0+
支持 CUDA 的 GPU（推薦）

快速安裝

# 安裝核心依賴
$ pip install -U -q transformers timm

# 安裝完整依賴（用於微調）
$ pip install -U -q -r requirements.txt

基本使用流程

克隆項目倉庫
安裝依賴包
選擇合適的 Gemma 模型
根據需求選擇推理或微調腳本
執行相應的代碼

項目結構

huggingface-gemma-recipes/
├── notebooks/                 # Jupyter 筆記本教程
│   └── fine_tune_gemma3n_on_t4.ipynb
├── scripts/                   # 微調腳本
│   ├── ft_gemma3n_image_vt.py
│   ├── ft_gemma3n_audio_vt.py
│   └── ft_gemma3n_image_trl.py
├── requirements.txt           # 依賴列表
└── README.md                 # 項目說明

技術優勢

1. 易用性

最小化的代碼示例，快速上手
統一的接口設計，降低學習成本
完整的文檔和示例

2. 靈活性

支持多種模態的輸入處理
提供多種微調策略
兼容不同的硬件配置

3. 實用性

基於官方 Transformers 庫
集成最新的模型優化技術
提供生產級的代碼質量

適用場景

研究與開發

多模態AI研究
模型性能評估
新應用場景探索

商業應用

智能客服系統
內容創作工具
多媒體分析平台

教育培訓

AI課程教學
模型微調實踐
技術概念驗證

社區與支持

該項目作為 Hugging Face 官方維護的開源項目，具有以下優勢：

活躍的社區支持
定期的更新維護
與最新模型版本的同步
豐富的文檔和示例

總結

huggingface-gemma-recipes 是一個高質量的開源項目，為 Gemma 模型的使用提供了完整的解決方案。無論是初學者還是有經驗的開發者，都能從中找到適合的資源和指導。項目的多模態支持和靈活的微調方案使其成為當前 AI 開發領域的重要工具之一。