lllyasviel/FramePack View GitHub Homepage for Latest Official Releases

Un modèle de diffusion vidéo pratique qui permet une utilisation constante de la mémoire vidéo grâce à la compression du contexte des images. Il ne nécessite que 6 Go de mémoire vidéo pour générer des vidéos de haute qualité allant jusqu'à 60 secondes.

Apache-2.0PythonFramePacklllyasviel 16.2k Last Updated: October 16, 2025

FramePack - Modèle de diffusion vidéo pratique

Aperçu du projet

FramePack est une architecture de réseau neuronal révolutionnaire de prédiction de la prochaine image, conçue pour la génération vidéo pratique. Développé par des équipes de recherche de l'Université de Stanford et du MIT, ce projet vise à rendre les modèles de diffusion vidéo aussi légers et faciles à utiliser que les modèles de diffusion d'images.

Caractéristiques principales

1. Occupation constante de la mémoire vidéo (complexité mémoire O(1))

La plus grande innovation de FramePack réside dans la compression du contexte des images d'entrée à une longueur constante, rendant la charge de travail de génération indépendante de la longueur de la vidéo. Cela signifie que :

Seulement 6 Go de VRAM sont nécessaires pour générer une vidéo de 60 secondes (1800 images, 30 ips)
La génération d'une vidéo d'une seconde et d'une vidéo d'une minute consomme la même quantité de VRAM
Prend en charge l'exécution de modèles à 13 milliards de paramètres sur des GPU de PC portable (comme les RTX 3060/3070Ti)
La taille du lot d'entraînement peut atteindre 64 (sur un seul nœud 8×A100/H100), comparable à l'entraînement de diffusion d'images

2. Technologie de compression du contexte d'image

FramePack utilise une taille de patch variable pour tokeniser chaque image historique, attribuant différentes longueurs de contexte en fonction de l'importance de l'image :

Poids de la proximité temporelle : Les images plus proches de l'image actuelle obtiennent un contexte plus long
Poids de la similarité des caractéristiques : Les images pertinentes pour le contenu actuel conservent plus de détails
Métrique hybride : Combine les deux stratégies ci-dessus pour optimiser l'effet de compression

Exemple : Dans HunyuanVideo, une image 480p utilisant un noyau de patch (1, 2, 2) produit généralement 1536 tokens.

3. Technologie anti-dérive (Anti-Drifting)

FramePack propose plusieurs méthodes anti-dérive pour résoudre le problème de l'accumulation d'erreurs dans la génération vidéo autorégressive :

FramePack-F1 (Version de génération prédictive)

Prédiction d'image unique vers l'avant
Convient aux scénarios de streaming en temps réel
Prévient l'accumulation d'erreurs grâce à une nouvelle régularisation anti-dérive

FramePack-P1 (Version de génération planifiée)

Comprend deux conceptions fondamentales :

a) Anti-dérive planifiée (Planned Anti-Drifting)

Génère d'abord les points d'extrémité des images clés éloignées
Puis remplit les segments intermédiaires
Garantit que les images ne dérivent pas entre les points d'extrémité planifiés

b) Discrétisation de l'historique (History Discretization)

Convertit toutes les images historiques en tokens discrétisés (en appliquant K-Means à l'ensemble du jeu de données)
Réduit les différences de représentation historique entre l'entraînement et l'inférence
Empêche les points d'extrémité eux-mêmes de dériver

4. Stratégie d'échantillonnage bidirectionnel

Prend en charge la génération inverse, de l'image de fin à l'image de début
Combine le contexte bidirectionnel des ancres d'images de début et de fin
Rompt la chaîne de prédiction causale, réduisant efficacement le biais d'observation

Performances

Vitesse de génération

RTX 4090 de bureau :
- Non optimisé : 2,5 secondes/image
- Avec teacache : 1,5 seconde/image
GPU de PC portable (3070Ti/3060) : Environ 4 à 8 fois plus lent qu'une RTX 4090
Prend en charge le retour visuel en temps réel (fonctionnalité de prédiction de la prochaine image)

Exigences en VRAM

Minimum : 6 Go de VRAM
Recommandé : Série RTX 30XX/40XX/50XX (prend en charge fp16 et bf16)
Système d'exploitation : Windows ou Linux

Efficacité de l'entraînement

Peut atteindre une taille de lot de 64 sur un seul nœud 8×A100-80G
Résolution 480p, modèle HunyuanVideo 13B, entraînement LoRA
Taille de lot 64 pour une fenêtre de taille 2 ou 3, taille de lot 32 pour une fenêtre de taille 4 ou 5
Convient à l'entraînement à l'échelle individuelle ou en laboratoire

Mode d'emploi

Installation Windows (package tout-en-un)

Téléchargez le package d'installation tout-en-un :

https://github.com/lllyasviel/FramePack/releases/download/windows/framepack_cu126_torch26.7z

Décompressez les fichiers
Exécutez le script de mise à jour :

update.bat

Lancez le programme :

run.bat

Note : La première exécution nécessite le téléchargement de plus de 30 Go de fichiers modèles depuis HuggingFace.

Installation Linux

Nécessite un environnement Python 3.10 :

# Installer PyTorch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

# Installer les dépendances
pip install -r requirements.txt

# Lancer l'interface graphique
python demo_gradio.py

Paramètres de ligne de commande pris en charge :

--share : Active le partage de lien public
--port : Spécifie le numéro de port
--server : Spécifie l'adresse du serveur

Composants d'accélération optionnels

Le projet prend en charge diverses optimisations des mécanismes d'attention :

PyTorch attention (par défaut)
xformers
flash-attn
sage-attention

Exemple d'installation de sage-attention (Linux) :

pip install sageattention==1.0.6

Interface utilisateur

Flux de travail de base

Panneau de gauche : Téléchargez l'image initiale et rédigez le prompt
Panneau de droite : Visualisez la vidéo générée et l'aperçu de l'espace latent
Affichage de la progression : Affiche en temps réel la barre de progression de chaque segment et l'aperçu latent du segment suivant

Mécanisme de génération vidéo

En raison de l'utilisation d'un modèle de prédiction de segment d'image suivante, la vidéo est générée segment par segment :

Initialement, vous ne verrez peut-être qu'une courte vidéo d'une seconde
Continuez à attendre, d'autres segments seront générés successivement
Finalement, la vidéo complète sera terminée

Flux de travail recommandé

Prototypage rapide :

Activez l'accélération teacache
Testez rapidement les idées et les prompts

Sortie finale :

Désactivez teacache
Utilisez le processus de diffusion complet pour obtenir des résultats de haute qualité

Note : teacache, sage-attention, la quantification bnb, gguf et d'autres méthodes d'optimisation peuvent affecter la qualité des résultats. Il est conseillé de les utiliser uniquement lors d'itérations rapides.

Conseils pour la rédaction des prompts

Format recommandé

Les prompts concis et axés sur l'action donnent les meilleurs résultats :

Sujet + description de l'action + autres détails

Exemples :

"La fille danse gracieusement, avec des mouvements clairs, pleine de charme."
"L'homme danse puissamment, avec des mouvements clairs, plein d'énergie."
"La femme tourne élégamment parmi les fleurs de cerisier, avec des manches flottantes."

Modèle de génération de prompts ChatGPT

Vous pouvez utiliser le modèle suivant pour que ChatGPT vous aide à générer des prompts :

You are an assistant that writes short, motion-focused prompts for animating images.

When the user sends an image, respond with a single, concise prompt describing visual motion 
(such as human activity, moving objects, or camera movements). Focus only on how the scene 
could come alive and become dynamic using brief phrases.

Larger and more dynamic motions (like dancing, jumping, running, etc.) are preferred over 
smaller or more subtle ones (like standing still, sitting, etc.).

Describe subject, then motion, then other things. 
For example: "The girl dances gracefully, with clear movements, full of charm."

If there is something that can dance (like a man, girl, robot, etc.), then prefer to 
describe it as dancing.

Stay in a loop: one image in, one motion prompt out. Do not explain, ask questions, 
or generate multiple options.

Historique des versions

14 juillet 2025

Téléchargement des résultats du test de stress anti-dérive de FramePack-P1 pour la conversion texte-vidéo pur
Utilisation de prompts courants, sans image de référence

26 juin 2025

Publication de la démonstration des résultats de FramePack-P1
Introduction des conceptions d'anti-dérive planifiée et de discrétisation de l'historique

3 mai 2025

Publication de la version de génération prédictive FramePack-F1
Offre une plage dynamique plus large et une prédiction unidirectionnelle moins contrainte

Architecture technique

Modèles de base

FramePack peut être combiné avec les modèles de diffusion vidéo existants :

HunyuanVideo : Plateforme de test principale (version améliorée)
Wan 2.1 : Prise en charge du modèle officiel Wan

Améliorations du modèle (version HunyuanVideo)

Ajout du modèle SigLip-Vision (google/siglip-so400m-patch14-384) comme encodeur visuel
Suppression de la dépendance aux MLLM internes de Tencent
Gel de LLama3.1 comme modèle purement textuel
Poursuite de l'entraînement sur des données de haute qualité

Compatibilité architecturale

Prend en charge naturellement la conversion texte-vidéo (Text-to-Video) et image-vidéo (Image-to-Video)
Aucune modification architecturale n'est nécessaire pour prendre en charge les deux modes
Peut être affiné sur les modèles de diffusion vidéo pré-entraînés existants

Scénarios d'application

1. Image-vers-vidéo (Image-to-Video)

Convertit des images statiques en vidéos dynamiques, prend en charge des descriptions d'action détaillées

2. Génération de vidéos longues

Génère des vidéos cohérentes d'une durée allant jusqu'à 60 secondes
Prend en charge le traitement de milliers d'images
Maintient la cohérence spatio-temporelle

3. Voyage de prompts (Prompt Travelling)

Particulièrement adapté à la version F1, prend en charge la gradation des prompts pendant la génération vidéo

4. Streaming en temps réel

La version F1 prend en charge la génération en continu, adaptée aux applications en temps réel

Ressources communautaires

Intégration ComfyUI

ComfyUI-FramePackWrapper : https://github.com/kijai/ComfyUI-FramePackWrapper
ComfyUI_RH_FramePack : https://github.com/HM-RunningHub/ComfyUI_RH_FramePack

Utilisation en ligne

La plateforme RunningHub offre une utilisation gratuite en ligne
Comprend des flux de travail préconfigurés

Notes importantes

Déclaration du site officiel

Seul site officiel : https://github.com/lllyasviel/FramePack

Les noms de domaine suivants sont tous des sites contrefaits et indésirables, veuillez ne pas les visiter ni y effectuer de paiements :

framepack.co, frame_pack.co
framepack.net, frame_pack.net
framepack.ai, frame_pack.ai
framepack.pro, frame_pack.pro
framepack.cc, frame_pack.cc
framepackai.co et toutes les autres variantes

Sensibilité matérielle

Les modèles de prédiction de segment d'image suivante sont très sensibles aux légères différences de bruit et de matériel :

Différents appareils peuvent produire des résultats légèrement différents
L'effet visuel global devrait rester similaire
Dans certains cas, des résultats complètement identiques peuvent être obtenus

Suggestions d'optimisation des performances

Si la vitesse de génération est nettement plus lente que la vitesse de référence :

Vérifiez que CUDA et PyTorch sont correctement installés
Confirmez que le pilote GPU est à jour
Fermez les programmes d'arrière-plan inutiles
Consultez le guide de dépannage de l'Issue #151

Informations de citation

Si vous utilisez FramePack dans vos recherches, veuillez citer les articles suivants :

@inproceedings{zhang2025framepack,
  title={Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models},
  author={Lvmin Zhang and Shengqu Cai and Muyang Li and Gordon Wetzstein and Maneesh Agrawala},
  booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems},
  year={2025},
}

@article{zhang2025framepackv1,
  title={Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation},
  author={Lvmin Zhang and Maneesh Agrawala},
  journal={Arxiv},
  year={2025}
}

Importance du projet

FramePack, grâce à ses techniques innovantes de compression du contexte d'image et d'anti-dérive, a réussi à réduire le coût mémoire de la diffusion vidéo à un niveau constant, rendant possible la génération de vidéos longues sur du matériel grand public. Cette avancée permet :

Aux créateurs individuels de générer des vidéos longues de haute qualité sur un PC portable
Aux chercheurs d'entraîner des modèles vidéo sur des équipements à l'échelle du laboratoire
Aux développeurs d'intégrer plus facilement des capacités de génération vidéo dans leurs applications

FramePack rend la génération vidéo véritablement pratique, tout comme Stable Diffusion a rendu la génération d'images accessible à tous.