Ein praktisches Video-Diffusionsmodell, das durch Frame-Kontextkomprimierung einen konstanten Speicherbedarf erreicht und mit nur 6 GB Speicher hochwertige Videos von bis zu 60 Sekunden Länge erzeugt.

Apache-2.0PythonFramePacklllyasviel 16.2k Last Updated: October 16, 2025

FramePack - Praktikables Videodiffusionsmodell

Projektübersicht

FramePack ist eine bahnbrechende neuronale Netzwerkarchitektur zur Vorhersage des nächsten Frames, die speziell für die praktische Videogenerierung entwickelt wurde. Dieses Projekt wurde von Forschungsteams der Stanford University und des Massachusetts Institute of Technology (MIT) entwickelt und zielt darauf ab, Videodiffusionsmodelle so leichtgewichtig und benutzerfreundlich wie Bilddiffusionsmodelle zu machen.


Kernmerkmale

1. Konstanter VRAM-Verbrauch (O(1) Speicherkomplexität)

Die größte Innovation von FramePack liegt in der Komprimierung des Eingabe-Frame-Kontexts auf eine konstante Länge, wodurch der Generierungsaufwand unabhängig von der Videolänge wird. Das bedeutet:

  • Nur 6 GB VRAM sind erforderlich, um ein 60-sekündiges Video (1800 Frames, 30 fps) zu generieren.
  • Die Generierung eines 1-sekündigen Videos und eines 1-minütigen Videos verbraucht den gleichen VRAM.
  • Unterstützt den Betrieb eines 13B-Parameter-Modells auf Laptop-GPUs (wie RTX 3060/3070Ti).
  • Die Trainings-Batch-Größe kann 64 erreichen (einzelner 8×A100/H100-Knoten), vergleichbar mit dem Training von Bilddiffusion.

2. Frame-Kontext-Komprimierungstechnologie

FramePack verwendet eine variable Patch-Größe, um jeden historischen Frame zu tokenisieren und je nach Wichtigkeit des Frames unterschiedliche Kontextlängen zuzuweisen:

  • Zeitliche Nähe-Gewichtung: Frames, die dem aktuellen Frame näher sind, erhalten einen längeren Kontext.
  • Merkmalsähnlichkeit-Gewichtung: Frames, die für den aktuellen Inhalt relevant sind, behalten mehr Details.
  • Hybridmetrik: Kombiniert die beiden oben genannten Strategien zur Optimierung der Komprimierungseffekte.

Beispiel: In HunyuanVideo erzeugt ein 480p-Frame mit einem (1, 2, 2) Patch-Kernel typischerweise 1536 Tokens.

3. Anti-Drifting-Technologie

FramePack schlägt mehrere Anti-Drifting-Methoden vor, um das Problem der Fehlerakkumulation bei der autoregressiven Videogenerierung zu lösen:

FramePack-F1 (Vorwärtsgenerierungsversion)

  • Einzelne Vorwärts-Frame-Vorhersage.
  • Geeignet für Echtzeit-Streaming-Szenarien.
  • Verhindert Fehlerakkumulation durch neue Anti-Drifting-Regularisierung.

FramePack-P1 (Planungsgenerierungsversion)

Enthält zwei Kerndesigns:

a) Geplantes Anti-Drifting (Planned Anti-Drifting)

  • Zuerst werden die entfernten Keyframe-Endpunkte generiert.
  • Dann werden die mittleren Abschnitte gefüllt.
  • Stellt sicher, dass Frames nicht zwischen den geplanten Endpunkten driften.

b) Historien-Diskretisierung (History Discretization)

  • Alle historischen Frames werden in diskretisierte Tokens umgewandelt (Anwendung von K-Means auf den gesamten Datensatz).
  • Reduziert Unterschiede in der Historienrepräsentation zwischen Training und Inferenz.
  • Verhindert, dass die Endpunkte selbst driften.

4. Bidirektionale Sampling-Strategie

  • Unterstützt die Rückwärtsgenerierung vom End-Frame zum Start-Frame.
  • Kombiniert bidirektionalen Kontext von Start- und End-Frame-Ankerpunkten.
  • Durchbricht die kausale Vorhersagekette und reduziert effektiv Beobachtungsfehler.

Leistungsmerkmale

Generierungsgeschwindigkeit

  • RTX 4090 Desktop:
    • Unoptimiert: 2,5 Sekunden/Frame
    • Mit teacache: 1,5 Sekunden/Frame
  • Laptop-GPU (3070Ti/3060): Ca. 4-8 Mal langsamer als RTX 4090
  • Unterstützt Echtzeit-visuelles Feedback (Next-Frame-Vorhersagefunktion).

VRAM-Anforderungen

  • Minimum: 6 GB VRAM
  • Empfohlen: RTX 30XX/40XX/50XX-Serie (unterstützt fp16 und bf16)
  • Betriebssystem: Windows oder Linux

Trainingseffizienz

  • Auf einem einzelnen 8×A100-80G-Knoten kann eine Batch-Größe von 64 erreicht werden.
  • 480p-Auflösung, 13B HunyuanVideo-Modell, LoRA-Training.
  • Batch-Größe 64 bei Fenstergröße 2 oder 3, Batch-Größe 32 bei Fenstergröße 4 oder 5.
  • Geeignet für Training im persönlichen oder Laborumfang.

Nutzung

Windows-Installation (Ein-Klick-Paket)

  1. Ein-Klick-Installationspaket herunterladen:
https://github.com/lllyasviel/FramePack/releases/download/windows/framepack_cu126_torch26.7z
  1. Dateien entpacken.

  2. Update-Skript ausführen:

update.bat
  1. Programm starten:
run.bat

Hinweis: Beim ersten Start müssen über 30 GB Modelldateien von HuggingFace heruntergeladen werden.

Linux-Installation

Erfordert Python 3.10-Umgebung:

# PyTorch installieren
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

# Abhängigkeiten installieren
pip install -r requirements.txt

# GUI starten
python demo_gradio.py

Unterstützte Kommandozeilenparameter:

  • --share: Öffentliche Linkfreigabe aktivieren
  • --port: Portnummer angeben
  • --server: Serveradresse angeben

Optionale Beschleunigungskomponenten

Das Projekt unterstützt verschiedene Aufmerksamkeitsmechanismus-Optimierungen:

  • PyTorch attention (Standard)
  • xformers
  • flash-attn
  • sage-attention

Beispiel für die Installation von sage-attention (Linux):

pip install sageattention==1.0.6

Benutzeroberfläche

Grundlegender Workflow

  1. Linkes Panel: Startbild hochladen und Prompt schreiben.
  2. Rechtes Panel: Generiertes Video und Vorschau des latenten Raums anzeigen.
  3. Fortschrittsanzeige: Zeigt den Fortschrittsbalken für jedes Segment und die latente Vorschau des nächsten Segments in Echtzeit an.

Videogenerierungsmechanismus

Da ein Next-Frame-Segment-Vorhersagemodell verwendet wird, wird das Video segmentweise generiert:

  • Anfangs ist möglicherweise nur ein kurzes Video von 1 Sekunde zu sehen.
  • Warten Sie weiter, weitere Segmente werden nacheinander generiert.
  • Schließlich wird das Video in voller Länge fertiggestellt.

Empfohlener Workflow

Schneller Prototyp:

  • teacache-Beschleunigung aktivieren.
  • Ideen und Prompts schnell testen.

Endgültige Ausgabe:

  • teacache deaktivieren.
  • Den vollständigen Diffusionsprozess für hochwertige Ergebnisse nutzen.

Hinweis: teacache, sage-attention, bnb-Quantisierung, gguf und andere Optimierungsmethoden können die Ergebnisqualität beeinflussen. Es wird empfohlen, sie nur bei schneller Iteration zu verwenden.


Prompt-Schreibtipps

Empfohlenes Format

Kurze, aktionsorientierte Prompts erzielen die besten Ergebnisse:

Subjekt + Aktionsbeschreibung + weitere Details

Beispiele:

  • "Das Mädchen tanzt anmutig, mit klaren Bewegungen, voller Charme."
  • "Der Mann tanzt kraftvoll, mit klaren Bewegungen, voller Energie."
  • "Die Frau dreht sich elegant zwischen Kirschblüten, mit fließenden Ärmeln."

ChatGPT Prompt-Generierungsvorlage

Sie können die folgende Vorlage verwenden, um ChatGPT bei der Generierung von Prompts zu unterstützen:

You are an assistant that writes short, motion-focused prompts for animating images.

When the user sends an image, respond with a single, concise prompt describing visual motion 
(such as human activity, moving objects, or camera movements). Focus only on how the scene 
could come alive and become dynamic using brief phrases.

Larger and more dynamic motions (like dancing, jumping, running, etc.) are preferred over 
smaller or more subtle ones (like standing still, sitting, etc.).

Describe subject, then motion, then other things. 
For example: "The girl dances gracefully, with clear movements, full of charm."

If there is something that can dance (like a man, girl, robot, etc.), then prefer to 
describe it as dancing.

Stay in a loop: one image in, one motion prompt out. Do not explain, ask questions, 
or generate multiple options.

Versionsgeschichte

14. Juli 2025

  • Hochladen der Ergebnisse des reinen Text-zu-Video-Anti-Drifting-Stresstests von FramePack-P1.
  • Verwendung gängiger Prompts, ohne Referenzbilder.

26. Juni 2025

  • Veröffentlichung der FramePack-P1-Ergebnispräsentation.
  • Einführung des geplanten Anti-Drifting- und Historien-Diskretisierungsdesigns.

3. Mai 2025

  • Veröffentlichung der FramePack-F1-Vorwärtsgenerierungsversion.
  • Bietet einen größeren Dynamikbereich und weniger Einschränkungen bei der unidirektionalen Vorhersage.

Technische Architektur

Basismodell

FramePack kann mit bestehenden Videodiffusionsmodellen kombiniert werden:

  • HunyuanVideo: Haupttestplattform (verbesserte Version)
  • Wan 2.1: Offizielle Wan-Modellunterstützung

Modellverbesserungen (HunyuanVideo-Version)

  1. Hinzufügen des SigLip-Vision-Modells (google/siglip-so400m-patch14-384) als visuellen Encoder.
  2. Entfernung der Abhängigkeit von internen Tencent MLLMs.
  3. Einfrieren von LLama3.1 als reines Textmodell.
  4. Weiteres Training auf hochwertigen Daten.

Architekturkompatibilität

  • Unterstützt Text-zu-Video (Text-to-Video) und Bild-zu-Video (Image-to-Video).
  • Unterstützt beide Modi nativ ohne Architekturänderungen.
  • Kann bestehende vortrainierte Videodiffusionsmodelle feinabstimmen.

Anwendungsszenarien

1. Bild-zu-Video (Image-to-Video)

Konvertiert statische Bilder in dynamische Videos, unterstützt detaillierte Bewegungsbeschreibungen.

2. Langzeit-Videogenerierung

  • Generiert kohärente Videos von bis zu 60 Sekunden Länge.
  • Unterstützt die Verarbeitung von Tausenden von Frames.
  • Bewahrt die räumlich-zeitliche Konsistenz.

3. Prompt Travelling

Besonders geeignet für die F1-Version, unterstützt die graduelle Änderung von Prompts während der Videogenerierung.

4. Echtzeit-Streaming

Die F1-Version unterstützt die Streaming-Generierung, geeignet für Echtzeit-Anwendungsszenarien.


Community-Ressourcen

ComfyUI-Integration

Online-Nutzung

  • Die RunningHub-Plattform bietet kostenlose Online-Nutzung.
  • Enthält vorkonfigurierte Workflows.

Wichtige Hinweise

Offizielle Website-Erklärung

Einzige offizielle Website: https://github.com/lllyasviel/FramePack

Die folgenden Domains sind gefälschte und Spam-Websites, bitte nicht besuchen oder bezahlen:

  • framepack.co, frame_pack.co
  • framepack.net, frame_pack.net
  • framepack.ai, frame_pack.ai
  • framepack.pro, frame_pack.pro
  • framepack.cc, frame_pack.cc
  • framepackai.co und alle anderen Varianten

Hardware-Sensibilität

Next-Frame-Segment-Vorhersagemodelle sind sehr empfindlich gegenüber geringfügigen Unterschieden in Rauschen und Hardware:

  • Verschiedene Geräte können leicht unterschiedliche Ergebnisse liefern.
  • Der gesamte visuelle Effekt sollte ähnlich bleiben.
  • In einigen Fällen können völlig identische Ergebnisse erzielt werden.

Leistungsoptimierungsempfehlungen

Wenn die Generierungsgeschwindigkeit deutlich langsamer ist als die Referenzgeschwindigkeit:

  1. Überprüfen Sie, ob CUDA und PyTorch korrekt installiert sind.
  2. Bestätigen Sie, dass der GPU-Treiber auf dem neuesten Stand ist.
  3. Schließen Sie unnötige Hintergrundprogramme.
  4. Beachten Sie die Fehlerbehebungsanleitung in Issue #151.

Zitierinformationen

Wenn Sie FramePack in Ihrer Forschung verwenden, zitieren Sie bitte die folgenden Arbeiten:

@inproceedings{zhang2025framepack,
  title={Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models},
  author={Lvmin Zhang and Shengqu Cai and Muyang Li and Gordon Wetzstein and Maneesh Agrawala},
  booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems},
  year={2025},
}

@article{zhang2025framepackv1,
  title={Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation},
  author={Lvmin Zhang and Maneesh Agrawala},
  journal={Arxiv},
  year={2025}
}

Projektbedeutung

FramePack hat durch innovative Frame-Kontext-Komprimierung und Anti-Drifting-Technologie die Speicherkosten der Videodiffusion erfolgreich auf ein konstantes Niveau gesenkt, wodurch die Generierung langer Videos auf Consumer-Hardware möglich wird. Dieser Durchbruch ermöglicht:

  • Individuellen Kreatoren, hochwertige lange Videos auf Laptops zu generieren.
  • Forschern, Videomodelle auf Laborgeräten zu trainieren.
  • Entwicklern, Videogenerierungsfunktionen einfacher in Anwendungen zu integrieren.

FramePack macht die Videogenerierung wirklich praktikabel, so wie Stable Diffusion die Bildgenerierung für jedermann zugänglich gemacht hat.

Star History Chart