unslothai/unslothView GitHub Homepage for Latest Official Releases

Unsloth: 대규모 언어 모델의 효율적인 미세 조정 및 강화 학습 도구 - 훈련 속도 2배 향상, 메모리 사용량 70% 감소

Apache-2.0Pythonunslothunslothai 46.2k Last Updated: September 24, 2025

Unsloth 프로젝트 상세 소개

프로젝트 개요

Unsloth는 대규모 언어 모델(LLM) 미세 조정 및 강화 학습에 중점을 둔 오픈 소스 도구로, Qwen3, Llama 4, DeepSeek-R1, Gemma 3, TTS 등 모델의 훈련 속도를 2배 향상시키고, 동시에 VRAM 사용량을 70% 줄일 수 있습니다. 이 프로젝트는 AI 기술을 더욱 보편화하고 사용하기 쉽게 만들어 연구자와 개발자에게 효율적인 모델 훈련 솔루션을 제공하는 것을 목표로 합니다.

주요 특징

고성능 최적화: 훈련 속도 2배 향상, VRAM 사용량 70% 감소
정밀도 손실 제로: 근사 방법을 사용하지 않아 훈련 정밀도 보장
광범위한 호환성: 다양한 주요 LLM 모델 및 훈련 방법 지원
사용자 친화적: 초보자에게 친숙한 노트북 및 상세 문서 제공

핵심 기능 및 특징

1. 모델 지원

Unsloth는 다음과 같은 다양한 주요 대규모 언어 모델을 지원합니다.

Llama 시리즈: Llama 4, Llama 3.3 (70B), Llama 3.2, Llama 3.1
Qwen 시리즈: Qwen 3 (14B), Qwen 2.5 (Coder 모델 포함)
Gemma 시리즈: Gemma 3, Gemma 2 (9B/27B)
기타 모델: Phi-4 (14B), Mistral Small (22B), DeepSeek-R1 등

2. 훈련 방법

미세 조정 (Fine-tuning):

전체 파라미터 미세 조정, 사전 훈련 지원
4bit, 8bit, 16bit 양자화 훈련
QLoRA 및 LoRA 미세 조정
동적 4bit 양자화 기술

강화 학습:

DPO (Direct Preference Optimization)
GRPO (장문맥 추론)
PPO (Proximal Policy Optimization)
보상 모델 훈련
온라인 DPO

3. 기술적 장점

성능 최적화:

모든 커널은 OpenAI의 Triton 언어로 작성, 수동 역전파 엔진
0% 정밀도 손실 - 근사 방법 없음 - 모두 정확한 계산
장문맥 훈련 지원 (최대 342K 문맥 지원)

메모리 최적화:

동적 4bit 양자화 기술, 정밀도 향상과 동시에 <10% VRAM 사용량 증가
기울기 체크포인트 최적화, 추가적으로 30% 메모리 사용량 감소
4배 더 긴 문맥 창 지원

4. 하드웨어 호환성

GPU 요구 사항: 2018년 이후의 NVIDIA GPU 지원, 최소 CUDA 능력 7.0
지원 모델: V100, T4, Titan V, RTX 20/30/40 시리즈, A100, H100, L40 등
운영 체제: Linux 및 Windows
특별 지원: GTX 1070, 1080은 실행 가능하나 속도가 느림

5. 통합 및 생태계

프레임워크 통합:

🤗 Hugging Face TRL 라이브러리 공식 지원
Trainer, Seq2SeqTrainer 지원
PyTorch 기본 코드와 호환

배포 옵션:

GGUF 형식으로 내보내기
Ollama, vLLM 배포 지원
Hugging Face 모델 허브 통합

설치 및 사용

빠른 설치

Linux 장치에서는 pip를 사용하여 설치하는 것을 권장합니다.

pip install unsloth

기본 사용 예시

from unsloth import FastLanguageModel
import torch
from trl import SFTTrainer, SFTConfig

# 모델 로드
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gemma-3-4B-it",
    max_seq_length = 2048,
    load_in_4bit = True,
)

# LoRA 어댑터 추가
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha = 16,
    use_gradient_checkpointing = "unsloth",
)

# 훈련 시작
trainer = SFTTrainer(
    model = model,
    train_dataset = dataset,
    tokenizer = tokenizer,
    # 기타 훈련 파라미터
)
trainer.train()

성능 벤치마크 테스트

훈련 효율 비교

모델	VRAM	Unsloth 속도	VRAM 감소	문맥 길이	Hugging Face + FA2
Llama 3.3 (70B)	80GB	2배	>75%	13배 더 김	1배
Llama 3.1 (8B)	80GB	2배	>70%	12배 더 김	1배

장문맥 지원

동일한 하드웨어 조건에서 Unsloth는 기존 방법보다 훨씬 긴 문맥 길이를 지원합니다.

8GB GPU: Unsloth는 2,972 토큰 지원, 기존 방법은 OOM
24GB GPU: Unsloth는 78,475 토큰 지원, 기존 방법은 5,789 토큰만 지원
80GB GPU: Unsloth는 342,733 토큰 지원, 기존 방법은 28,454 토큰만 지원

커뮤니티 및 생태계

문서 및 지원

공식 문서: docs.unsloth.ai
GitHub 저장소: 활발한 오픈 소스 커뮤니티
소셜 미디어: Twitter/X 공식 계정
커뮤니티 포럼: Reddit 페이지 교류

학습 자료

초보자에게 친숙한 Colab 노트북
상세한 설치 및 사용 가이드
Kaggle 대회 전용 노트북
전체 API 문서

요약

Unsloth는 현재 최고의 오픈 소스 LLM 미세 조정 도구 중 하나이며, 혁신적인 최적화 기술을 통해 훈련 속도와 메모리 효율성을 크게 향상시켰습니다. 연구자든 산업계 개발자든 Unsloth의 효율적인 훈련 능력을 통해 혜택을 누릴 수 있습니다. 프로젝트의 지속적인 업데이트와 활발한 커뮤니티 지원은 Unsloth를 LLM 미세 조정 분야의 중요한 선택으로 만듭니다.