Home
Login

Eine generative KI-Modellbibliothek, entwickelt von Stability AI, die verschiedene Bild- und Videogenerierungsmodelle wie Stable Diffusion XL und Stable Video Diffusion enthält.

MITPython 26.1kStability-AIgenerative-models Last Updated: 2025-05-20

Detaillierte Vorstellung des Stability AI Generative Model Projekts

Projektübersicht

Die Generative Model Bibliothek von Stability AI ist ein Open-Source-Projekt, das eine Vielzahl fortschrittlicher KI-generativer Modelle bereitstellt, darunter Bildgenerierung, Videogenerierung und Mehransichtssynthese. Das Projekt verwendet ein modulares Design und unterstützt das Training und die Inferenz verschiedener Diffusionsmodelle.

Kernfunktionen

1. Modulare Architektur

  • Konfigurationsgesteuerter Ansatz: Erstellung und Kombination von Submodulen durch Aufruf der Funktion instantiate_from_config()
  • Bereinigte Diffusionsmodellklasse: Umstrukturierung von LatentDiffusion zu DiffusionEngine
  • Einheitliche Bedingungsbehandlung: Die Klasse GeneralConditioner verarbeitet alle Arten von Bedingungseingaben

2. Verbesserte Modellarchitektur

  • Denoising-Framework: Unterstützt kontinuierliche und diskrete Zeitmodelle
  • Unabhängige Sampler: Trennung des Guiders vom Sampler
  • Bereinigte Autoencoder-Modelle: Optimierte Encoder-Architektur

Unterstützte Modelle

SDXL (Stable Diffusion XL) Serie

  • SDXL-base-1.0: Basismodell, unterstützt die Generierung von Bildern mit einer Auflösung von 1024x1024
  • SDXL-refiner-1.0: Verfeinerungsmodell zur Bildnachbearbeitung
  • SDXL-Turbo: Modell zur schnellen Generierung

SVD (Stable Video Diffusion) Serie

  • SVD: Bild-zu-Video-Modell, generiert 14 Frames mit einer Auflösung von 576x1024
  • SVD-XT: Erweiterte Version, unterstützt die Generierung von 25 Frames

SV3D (Stable Video 3D) Serie

  • SV3D_u: Generierung von Orbitalvideos basierend auf Einzelbildern
  • SV3D_p: Unterstützt die Generierung von 3D-Videos mit Angabe des Kamerapfads

SV4D (Stable Video 4D) Serie

  • SV4D: Video-zu-4D-Diffusionsmodell zur Synthese von Videos aus neuen Perspektiven
  • Generiert 40 Frames (5 Videoframes × 8 Kameraperspektiven) mit einer Auflösung von 576x576

Technische Architektur

Denoising-Framework

  • Kontinuierliche Zeitmodelle: Unterstützen eine flexiblere Zeitabtastung
  • Diskrete Zeitmodelle: Sonderfall traditioneller Diffusionsmodelle
  • Konfigurierbare Komponenten:
    • Gewichte der Verlustfunktion (denoiser_weighting.py)
    • Netzwerk-Vorkonditionierung (denoiser_scaling.py)
    • Rauschpegelabtastung (sigma_sampling.py)

Installation und Verwendung

Systemanforderungen

  • Python 3.10+
  • PyTorch 2.0+
  • CUDA-fähige GPU

Installationsschritte

git clone https://github.com/Stability-AI/generative-models.git
cd generative-models

# Virtuelle Umgebung erstellen
python3 -m venv .pt2
source .pt2/bin/activate

# Abhängigkeiten installieren
pip3 install -r requirements/pt2.txt
pip3 install .
pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

Schnellstart

Text-zu-Bild-Generierung (SDXL)

# Modellgewichte in den Ordner checkpoints/ herunterladen
# Streamlit-Demo ausführen
streamlit run scripts/demo/sampling.py --server.port <your_port>

Bild-zu-Video-Generierung (SVD)

# SVD-Modell herunterladen
# Einfaches Video-Sampling ausführen
python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png>

Mehransichtssynthese (SV3D)

# SV3D_u (Orbitalvideo)
python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_u

# SV3D_p (Kamerapfad angeben)
python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_p --elevations_deg 10.0

4D-Videosynthese (SV4D)

python scripts/sampling/simple_video_sample_4d.py --input_path assets/sv4d_videos/test_video1.mp4 --output_folder outputs/sv4d

Trainingskonfiguration

Unterstützte Trainingstypen

  • Pixelbasierte Diffusionsmodelle: Training direkt im Pixelraum
  • Latente Diffusionsmodelle: Training im latenten Raum, erfordert vortrainierten VAE
  • Bedingte generative Modelle: Unterstützen Text, Kategorien und andere Bedingungen

Trainingsbeispiel

# MNIST-Training mit bedingter Generierung
python main.py --base configs/example_training/toy/mnist_cond.yaml

# Text-zu-Bild-Training
python main.py --base configs/example_training/txt2img-clipl.yaml

Datenverarbeitung

Datenpipeline

  • Datenpipeline zur Unterstützung des groß angelegten Trainings
  • WebDataset-Format mit Tar-Dateien
  • Unterstützung für Map-Style-Datensätze

Datenformat

example = {
    "jpg": x, 
    "txt": "a beautiful image"  
}

Modelllizenz

  • SDXL-1.0: CreativeML Open RAIL++-M Lizenz
  • SDXL-0.9: Forschungslizenz
  • SVD-Serie: Lizenz für Forschungszwecke

Wasserzeichenerkennung

Das Projekt verwendet die Bibliothek invisible-watermark, um unsichtbare Wasserzeichen in generierte Bilder einzubetten:

# Umgebung für die Wasserzeichenerkennung installieren
python -m venv .detect
source .detect/bin/activate
pip install "numpy>=1.17" "PyWavelets>=1.1.1" "opencv-python>=4.1.0.25"
pip install --no-deps invisible-watermark

# Wasserzeichen erkennen
python scripts/demo/detect.py <filename>

Technische Merkmale

1. Hochwertige Generierung

  • SDXL unterstützt die Generierung von hochauflösenden Bildern mit 1024x1024
  • SVD unterstützt die hochwertige Videogenerierung
  • SV3D/SV4D unterstützt die Mehransichts- und 4D-Videosynthese

2. Flexible Bedingungssteuerung

  • Unterstützt Text, Bilder, Vektoren und andere Bedingungseingaben
  • Classifier-free Guidance
  • Konfigurierbare Bedingungs-Dropout-Rate

3. Fortschrittliche Sampling-Techniken

  • Verschiedene numerische Löser
  • Konfigurierbare Sampling-Schritte und Diskretisierungsmethoden
  • Unterstützung für Guiding-Wrapper

4. Forschungsfreundlich

  • Detaillierte technische Berichte und Veröffentlichungen
  • Open-Source-Code und Modellgewichte
  • Aktive Community-Unterstützung

Anwendungsbereiche

  1. Künstlerische Gestaltung: Textgenerierung von Kunstbildern
  2. Content-Erstellung: Bildgenerierung von Videoinhalten
  3. 3D-Modellierung: Mehransichtsbildgenerierung
  4. Forschung und Entwicklung: Forschung zu Diffusionsmodellalgorithmen
  5. Aus- und Weiterbildung: Erlernen von KI-Generierungstechnologien

Projektvorteile

  • Modulares Design: Einfach zu erweitern und anzupassen
  • Hohe Leistung: Optimierter Trainings- und Inferenzcode
  • Multimodale Unterstützung: Bild-, Video-, 3D- und andere Generierungsaufgaben
  • Kontinuierliche Aktualisierung: Regelmäßige Veröffentlichung neuer Modelle und Funktionen
  • Aktive Community: Umfangreiche Dokumentation und Beispielcode

Dieses Projekt repräsentiert den aktuellen Stand der Technik im Bereich der generativen KI und bietet Forschern und Entwicklern leistungsstarke Werkzeuge zur Erforschung und Anwendung generativer KI-Technologien.

Star History Chart