linkedin/Liger-KernelView GitHub Homepage for Latest Official Releases
由 LinkedIn 開發的高效 Triton 核心集合,專為大語言模型訓練優化,能提升 20% 訓練速度並減少 60% 記憶體使用
BSD-2-ClausePythonLiger-Kernellinkedin 5.5k Last Updated: August 05, 2025
Liger-Kernel 項目詳細介紹
項目概述
Liger-Kernel 是由 LinkedIn 開發的一個 Triton 內核集合,專門為大語言模型 (LLM) 訓練設計。該項目能夠有效提升多 GPU 訓練吞吐量 20%,減少內存使用 60%。項目名稱 "Liger" 代表 "LinkedIn GPU Efficient Runtime",體現了其高效 GPU 運行時的核心理念。
核心特性
性能優勢
- 訓練速度提升:通過內核融合、原地替換和分塊技術,多 GPU 訓練吞吐量提升 20%
- 內存效率:內存使用減少 60%,支持更長的上下文長度、更大的批次大小和海量詞彙表
- 後訓練優化:針對對齊和蒸餾任務,後訓練內核可節省高達 80% 的內存
技術實現
- 精確計算:無近似計算,前向和反向傳播都經過嚴格的單元測試
- 輕量級依賴:僅需要 Torch 和 Triton,無額外庫依賴
- 兼容性強:開箱即用,兼容 Flash Attention、PyTorch FSDP 和 Microsoft DeepSpeed
支持的模型和操作
支持的模型架構
項目支持多種主流大語言模型架構,包括:
- LLaMA 系列:LLaMA 2、LLaMA 3、LLaMA 3.2-Vision
- Mistral 系列:Mistral、Mixtral
- Gemma 系列:Gemma1、Gemma2、Gemma3
- Qwen 系列:Qwen2、Qwen2.5、Qwen2-VL、Qwen3 等
- 其他模型:Phi3、Granite、OLMo2、GLM-4 等
核心內核操作
項目實現了多種優化的內核操作:
基礎內核
LigerRMSNorm
:RMS 歸一化LigerLayerNorm
:層歸一化liger_rotary_pos_emb
:旋轉位置編碼 (RoPE)LigerSwiGLUMLP
:SwiGLU 激活函數LigerGEGLUMLP
:GeGLU 激活函數LigerCrossEntropyLoss
:交叉熵損失LigerFusedLinearCrossEntropyLoss
:融合線性交叉熵損失
後訓練內核
支持多種對齊和偏好優化損失函數:
LigerFusedLinearDPOLoss
:DPO 損失LigerFusedLinearORPOLoss
:ORPO 損失LigerFusedLinearCPOLoss
:CPO 損失LigerFusedLinearSimPOLoss
:SimPO 損失LigerFusedLinearKTOLoss
:KTO 損失
使用方法
1. 自動集成方式
from liger_kernel.transformers import AutoLigerKernelForCausalLM
model = AutoLigerKernelForCausalLM.from_pretrained("path/to/some/model")
2. 手動補丁方式
import transformers
from liger_kernel.transformers import apply_liger_kernel_to_llama
apply_liger_kernel_to_llama()
apply_liger_kernel_to_llama(
rope=True,
swiglu=True,
cross_entropy=True,
fused_linear_cross_entropy=False,
rms_norm=False
)
model = transformers.AutoModelForCausalLM("path/to/llama/model")
3. 低級 API 方式
from liger_kernel.transformers import LigerFusedLinearCrossEntropyLoss
import torch.nn as nn
import torch
model = nn.Linear(128, 256).cuda()
loss_fn = LigerFusedLinearCrossEntropyLoss()
input = torch.randn(4, 128, requires_grad=True, device="cuda")
target = torch.randint(256, (4, ), device="cuda")
loss = loss_fn(model.weight, input, target)
loss.backward()
4. 後訓練損失使用示例
from liger_kernel.chunked_loss import LigerFusedLinearORPOLoss
orpo_loss = LigerFusedLinearORPOLoss()
y = orpo_loss(lm_head.weight, x, target)
安裝方法
穩定版本安裝
pip install liger-kernel
開發版本安裝
pip install liger-kernel-nightly
從源碼安裝
git clone https://github.com/linkedin/Liger-Kernel.git
cd Liger-Kernel
pip install -e .
開發環境安裝
pip install -e ".[dev]"
系統要求
NVIDIA GPU 環境
torch >= 2.1.2
triton >= 2.3.0
AMD GPU 環境
torch >= 2.5.0
triton >= 3.0.0
其他依賴
transformers >= 4.x
:如果使用 transformers 模型補丁 API
性能基準測試
基準測試條件:
- 模型:LLaMA 3-8B
- 批次大小:8
- 數據類型:bf16
- 優化器:AdamW
- 梯度檢查點:啟用
- 分佈式策略:FSDP1,8 個 A100 GPU
測試結果顯示:
- Hugging Face 模型在 4K 上下文長度時開始出現內存溢出,而 Hugging Face + Liger Kernel 可擴展至 16K
- 訓練吞吐量提升超過 20%
- 內存使用減少 60%
框架集成
Liger-Kernel 已集成到多個主流訓練框架中:
- Axolotl
- LLaMa-Factory
- SFTTrainer
- Hugging Face Trainer
- SWIFT
- oumi
技術原理
內核融合技術
通過將多個操作融合到單個內核中,減少 GPU 內存訪問次數,提高計算效率。
分塊計算
對於內存密集型操作,採用分塊處理技術,將大型計算分解為小塊,降低峰值內存使用。
原地操作
盡可能使用原地操作,避免額外的內存分配,進一步優化內存效率。
總結
Liger-Kernel 代表了大語言模型訓練優化的重要進步。通過精心設計的 Triton 內核、內存優化技術和廣泛的模型支持,它為研究人員和工程師提供了一個強大而易用的工具,能夠顯著提升訓練效率並降低計算成本。項目的開源性質和活躍的社區支持使其成為 LLM 訓練領域的重要資源。