huggingface/diffusers View GitHub Homepage for Latest Official Releases

이미지, 비디오, 오디오 생성을 지원하는 최첨단 확산 모델 라이브러리

Apache-2.0Pythondiffusershuggingface 32.9k Last Updated: March 05, 2026

🤗 Diffusers 프로젝트 상세 소개

프로젝트 개요

🤗 Diffusers는 Hugging Face에서 개발한 최첨단 확산 모델 라이브러리로, 이미지, 오디오, 심지어 분자 3D 구조 생성에 특화되어 있습니다. 간단한 추론 솔루션을 찾든, 자신만의 확산 모델을 훈련하든, 🤗 Diffusers는 둘 다 지원하는 모듈식 도구 상자입니다.

프로젝트 주소: https://github.com/huggingface/diffusers

핵심 기능

설계 철학

성능보다 실용성 (usability over performance)
쉬움보다 단순함 (simple over easy)
추상화보다 사용자 정의 가능성 (customizability over abstractions)

세 가지 핵심 구성 요소

최첨단 확산 파이프라인 (Diffusion Pipelines)
- 단 몇 줄의 코드로 추론 실행 가능
- 다양한 생성 작업 지원
교체 가능한 노이즈 스케줄러 (Noise Schedulers)
- 다양한 확산 속도 지원
- 출력 품질 조절 가능
사전 훈련된 모델 (Pretrained Models)
- 빌딩 블록으로 사용 가능
- 스케줄러와 결합하여 엔드 투 엔드 확산 시스템 생성

설치 방법

PyTorch 버전

# 공식 패키지
pip install --upgrade diffusers[torch]

# 커뮤니티에서 관리하는 conda 버전
conda install -c conda-forge diffusers

Flax 버전

pip install --upgrade diffusers[flax]

빠른 시작

텍스트-이미지 생성

from diffusers import DiffusionPipeline
import torch

pipeline = DiffusionPipeline.from_pretrained("stable-diffusion-v1-5/stable-diffusion-v1-5", torch_dtype=torch.float16)
pipeline.to("cuda")
pipeline("An image of a squirrel in Picasso style").images[0]

사용자 정의 확산 시스템

from diffusers import DDPMScheduler, UNet2DModel
from PIL import Image
import torch

scheduler = DDPMScheduler.from_pretrained("google/ddpm-cat-256")
model = UNet2DModel.from_pretrained("google/ddpm-cat-256").to("cuda")
scheduler.set_timesteps(50)

sample_size = model.config.sample_size
noise = torch.randn((1, 3, sample_size, sample_size), device="cuda")
input = noise

for t in scheduler.timesteps:
    with torch.no_grad():
        noisy_residual = model(input, t).sample
    prev_noisy_sample = scheduler.step(noisy_residual, t, input).prev_sample
    input = prev_noisy_sample

image = (input / 2 + 0.5).clamp(0, 1)
image = image.cpu().permute(0, 2, 3, 1).numpy()[0]
image = Image.fromarray((image * 255).round().astype("uint8"))
image

지원하는 주요 작업 및 모델

작업	파이프라인	추천 모델
무조건적 이미지 생성	DDPMPipeline	google/ddpm-ema-church-256
텍스트-이미지	StableDiffusionPipeline	stable-diffusion-v1-5/stable-diffusion-v1-5
텍스트-이미지 (unCLIP)	UnCLIPPipeline	kakaobrain/karlo-v1-alpha
텍스트-이미지 (DeepFloyd IF)	IFPipeline	DeepFloyd/IF-I-XL-v1.0
텍스트-이미지 (Kandinsky)	KandinskyPipeline	kandinsky-community/kandinsky-2-2-decoder
제어 가능한 생성	StableDiffusionControlNetPipeline	lllyasviel/sd-controlnet-canny
이미지 편집	StableDiffusionInstructPix2PixPipeline	timbrooks/instruct-pix2pix
이미지-이미지	StableDiffusionImg2ImgPipeline	stable-diffusion-v1-5/stable-diffusion-v1-5
이미지 복원	StableDiffusionInpaintPipeline	runwayml/stable-diffusion-inpainting
이미지 변형	StableDiffusionImageVariationPipeline	lambdalabs/sd-image-variations-diffusers
이미지 초해상도	StableDiffusionUpscalePipeline	stabilityai/stable-diffusion-x4-upscaler
잠재 공간 초해상도	StableDiffusionLatentUpscalePipeline	stabilityai/sd-x2-latent-upscaler

문서 구조

문서 유형	학습 내용
Tutorial	모델 및 스케줄러를 사용하여 확산 시스템 구축, 자신만의 확산 모델 훈련과 같은 라이브러리의 기본 기술 학습
Loading	라이브러리의 모든 구성 요소(파이프라인, 모델 및 스케줄러)를 로드하고 구성하는 방법, 다양한 스케줄러를 사용하는 방법
Pipelines for inference	파이프라인을 사용하여 다양한 추론 작업 수행, 일괄 생성, 생성 출력 및 무작위성 제어 방법
Optimization	메모리 제한적인 하드웨어에서 실행하고 추론 속도를 높이기 위해 파이프라인을 최적화하는 방법
Training	다양한 작업을 위해 자신만의 확산 모델을 훈련하는 방법

커뮤니티 생태계

통합 프로젝트

Microsoft TaskMatrix
InvokeAI
InstantID
Apple ML Stable Diffusion
Lama Cleaner
Grounded Segment Anything
Stable DreamFusion
DeepFloyd IF
BentoML
Kohya_ss

요약

🤗 Diffusers는 현재 가장 완전하고 사용하기 쉬운 확산 모델 라이브러리 중 하나입니다. 풍부한 사전 훈련된 모델과 파이프라인을 제공할 뿐만 아니라 사용자 정의 훈련 및 최적화를 지원합니다. AI 연구자, 개발자 또는 창작자 모두 이 라이브러리에서 다양한 생성 AI 애플리케이션을 구현하는 데 필요한 도구를 찾을 수 있습니다.