Un modèle de diffusion vidéo pratique qui permet une utilisation constante de la mémoire vidéo grâce à la compression du contexte des images. Il ne nécessite que 6 Go de mémoire vidéo pour générer des vidéos de haute qualité allant jusqu'à 60 secondes.
FramePack - Modèle de diffusion vidéo pratique
Aperçu du projet
FramePack est une architecture de réseau neuronal révolutionnaire de prédiction de la prochaine image, conçue pour la génération vidéo pratique. Développé par des équipes de recherche de l'Université de Stanford et du MIT, ce projet vise à rendre les modèles de diffusion vidéo aussi légers et faciles à utiliser que les modèles de diffusion d'images.
Caractéristiques principales
1. Occupation constante de la mémoire vidéo (complexité mémoire O(1))
La plus grande innovation de FramePack réside dans la compression du contexte des images d'entrée à une longueur constante, rendant la charge de travail de génération indépendante de la longueur de la vidéo. Cela signifie que :
- Seulement 6 Go de VRAM sont nécessaires pour générer une vidéo de 60 secondes (1800 images, 30 ips)
- La génération d'une vidéo d'une seconde et d'une vidéo d'une minute consomme la même quantité de VRAM
- Prend en charge l'exécution de modèles à 13 milliards de paramètres sur des GPU de PC portable (comme les RTX 3060/3070Ti)
- La taille du lot d'entraînement peut atteindre 64 (sur un seul nœud 8×A100/H100), comparable à l'entraînement de diffusion d'images
2. Technologie de compression du contexte d'image
FramePack utilise une taille de patch variable pour tokeniser chaque image historique, attribuant différentes longueurs de contexte en fonction de l'importance de l'image :
- Poids de la proximité temporelle : Les images plus proches de l'image actuelle obtiennent un contexte plus long
- Poids de la similarité des caractéristiques : Les images pertinentes pour le contenu actuel conservent plus de détails
- Métrique hybride : Combine les deux stratégies ci-dessus pour optimiser l'effet de compression
Exemple : Dans HunyuanVideo, une image 480p utilisant un noyau de patch (1, 2, 2) produit généralement 1536 tokens.
3. Technologie anti-dérive (Anti-Drifting)
FramePack propose plusieurs méthodes anti-dérive pour résoudre le problème de l'accumulation d'erreurs dans la génération vidéo autorégressive :
FramePack-F1 (Version de génération prédictive)
- Prédiction d'image unique vers l'avant
- Convient aux scénarios de streaming en temps réel
- Prévient l'accumulation d'erreurs grâce à une nouvelle régularisation anti-dérive
FramePack-P1 (Version de génération planifiée)
Comprend deux conceptions fondamentales :
a) Anti-dérive planifiée (Planned Anti-Drifting)
- Génère d'abord les points d'extrémité des images clés éloignées
- Puis remplit les segments intermédiaires
- Garantit que les images ne dérivent pas entre les points d'extrémité planifiés
b) Discrétisation de l'historique (History Discretization)
- Convertit toutes les images historiques en tokens discrétisés (en appliquant K-Means à l'ensemble du jeu de données)
- Réduit les différences de représentation historique entre l'entraînement et l'inférence
- Empêche les points d'extrémité eux-mêmes de dériver
4. Stratégie d'échantillonnage bidirectionnel
- Prend en charge la génération inverse, de l'image de fin à l'image de début
- Combine le contexte bidirectionnel des ancres d'images de début et de fin
- Rompt la chaîne de prédiction causale, réduisant efficacement le biais d'observation
Performances
Vitesse de génération
- RTX 4090 de bureau :
- Non optimisé : 2,5 secondes/image
- Avec teacache : 1,5 seconde/image
- GPU de PC portable (3070Ti/3060) : Environ 4 à 8 fois plus lent qu'une RTX 4090
- Prend en charge le retour visuel en temps réel (fonctionnalité de prédiction de la prochaine image)
Exigences en VRAM
- Minimum : 6 Go de VRAM
- Recommandé : Série RTX 30XX/40XX/50XX (prend en charge fp16 et bf16)
- Système d'exploitation : Windows ou Linux
Efficacité de l'entraînement
- Peut atteindre une taille de lot de 64 sur un seul nœud 8×A100-80G
- Résolution 480p, modèle HunyuanVideo 13B, entraînement LoRA
- Taille de lot 64 pour une fenêtre de taille 2 ou 3, taille de lot 32 pour une fenêtre de taille 4 ou 5
- Convient à l'entraînement à l'échelle individuelle ou en laboratoire
Mode d'emploi
Installation Windows (package tout-en-un)
- Téléchargez le package d'installation tout-en-un :
https://github.com/lllyasviel/FramePack/releases/download/windows/framepack_cu126_torch26.7z
Décompressez les fichiers
Exécutez le script de mise à jour :
update.bat
- Lancez le programme :
run.bat
Note : La première exécution nécessite le téléchargement de plus de 30 Go de fichiers modèles depuis HuggingFace.
Installation Linux
Nécessite un environnement Python 3.10 :
# Installer PyTorch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
# Installer les dépendances
pip install -r requirements.txt
# Lancer l'interface graphique
python demo_gradio.py
Paramètres de ligne de commande pris en charge :
--share: Active le partage de lien public--port: Spécifie le numéro de port--server: Spécifie l'adresse du serveur
Composants d'accélération optionnels
Le projet prend en charge diverses optimisations des mécanismes d'attention :
- PyTorch attention (par défaut)
- xformers
- flash-attn
- sage-attention
Exemple d'installation de sage-attention (Linux) :
pip install sageattention==1.0.6
Interface utilisateur
Flux de travail de base
- Panneau de gauche : Téléchargez l'image initiale et rédigez le prompt
- Panneau de droite : Visualisez la vidéo générée et l'aperçu de l'espace latent
- Affichage de la progression : Affiche en temps réel la barre de progression de chaque segment et l'aperçu latent du segment suivant
Mécanisme de génération vidéo
En raison de l'utilisation d'un modèle de prédiction de segment d'image suivante, la vidéo est générée segment par segment :
- Initialement, vous ne verrez peut-être qu'une courte vidéo d'une seconde
- Continuez à attendre, d'autres segments seront générés successivement
- Finalement, la vidéo complète sera terminée
Flux de travail recommandé
Prototypage rapide :
- Activez l'accélération teacache
- Testez rapidement les idées et les prompts
Sortie finale :
- Désactivez teacache
- Utilisez le processus de diffusion complet pour obtenir des résultats de haute qualité
Note : teacache, sage-attention, la quantification bnb, gguf et d'autres méthodes d'optimisation peuvent affecter la qualité des résultats. Il est conseillé de les utiliser uniquement lors d'itérations rapides.
Conseils pour la rédaction des prompts
Format recommandé
Les prompts concis et axés sur l'action donnent les meilleurs résultats :
Sujet + description de l'action + autres détails
Exemples :
- "La fille danse gracieusement, avec des mouvements clairs, pleine de charme."
- "L'homme danse puissamment, avec des mouvements clairs, plein d'énergie."
- "La femme tourne élégamment parmi les fleurs de cerisier, avec des manches flottantes."
Modèle de génération de prompts ChatGPT
Vous pouvez utiliser le modèle suivant pour que ChatGPT vous aide à générer des prompts :
You are an assistant that writes short, motion-focused prompts for animating images.
When the user sends an image, respond with a single, concise prompt describing visual motion
(such as human activity, moving objects, or camera movements). Focus only on how the scene
could come alive and become dynamic using brief phrases.
Larger and more dynamic motions (like dancing, jumping, running, etc.) are preferred over
smaller or more subtle ones (like standing still, sitting, etc.).
Describe subject, then motion, then other things.
For example: "The girl dances gracefully, with clear movements, full of charm."
If there is something that can dance (like a man, girl, robot, etc.), then prefer to
describe it as dancing.
Stay in a loop: one image in, one motion prompt out. Do not explain, ask questions,
or generate multiple options.
Historique des versions
14 juillet 2025
- Téléchargement des résultats du test de stress anti-dérive de FramePack-P1 pour la conversion texte-vidéo pur
- Utilisation de prompts courants, sans image de référence
26 juin 2025
- Publication de la démonstration des résultats de FramePack-P1
- Introduction des conceptions d'anti-dérive planifiée et de discrétisation de l'historique
3 mai 2025
- Publication de la version de génération prédictive FramePack-F1
- Offre une plage dynamique plus large et une prédiction unidirectionnelle moins contrainte
Architecture technique
Modèles de base
FramePack peut être combiné avec les modèles de diffusion vidéo existants :
- HunyuanVideo : Plateforme de test principale (version améliorée)
- Wan 2.1 : Prise en charge du modèle officiel Wan
Améliorations du modèle (version HunyuanVideo)
- Ajout du modèle SigLip-Vision (google/siglip-so400m-patch14-384) comme encodeur visuel
- Suppression de la dépendance aux MLLM internes de Tencent
- Gel de LLama3.1 comme modèle purement textuel
- Poursuite de l'entraînement sur des données de haute qualité
Compatibilité architecturale
- Prend en charge naturellement la conversion texte-vidéo (Text-to-Video) et image-vidéo (Image-to-Video)
- Aucune modification architecturale n'est nécessaire pour prendre en charge les deux modes
- Peut être affiné sur les modèles de diffusion vidéo pré-entraînés existants
Scénarios d'application
1. Image-vers-vidéo (Image-to-Video)
Convertit des images statiques en vidéos dynamiques, prend en charge des descriptions d'action détaillées
2. Génération de vidéos longues
- Génère des vidéos cohérentes d'une durée allant jusqu'à 60 secondes
- Prend en charge le traitement de milliers d'images
- Maintient la cohérence spatio-temporelle
3. Voyage de prompts (Prompt Travelling)
Particulièrement adapté à la version F1, prend en charge la gradation des prompts pendant la génération vidéo
4. Streaming en temps réel
La version F1 prend en charge la génération en continu, adaptée aux applications en temps réel
Ressources communautaires
Intégration ComfyUI
- ComfyUI-FramePackWrapper : https://github.com/kijai/ComfyUI-FramePackWrapper
- ComfyUI_RH_FramePack : https://github.com/HM-RunningHub/ComfyUI_RH_FramePack
Utilisation en ligne
- La plateforme RunningHub offre une utilisation gratuite en ligne
- Comprend des flux de travail préconfigurés
Notes importantes
Déclaration du site officiel
Seul site officiel : https://github.com/lllyasviel/FramePack
Les noms de domaine suivants sont tous des sites contrefaits et indésirables, veuillez ne pas les visiter ni y effectuer de paiements :
- framepack.co, frame_pack.co
- framepack.net, frame_pack.net
- framepack.ai, frame_pack.ai
- framepack.pro, frame_pack.pro
- framepack.cc, frame_pack.cc
- framepackai.co et toutes les autres variantes
Sensibilité matérielle
Les modèles de prédiction de segment d'image suivante sont très sensibles aux légères différences de bruit et de matériel :
- Différents appareils peuvent produire des résultats légèrement différents
- L'effet visuel global devrait rester similaire
- Dans certains cas, des résultats complètement identiques peuvent être obtenus
Suggestions d'optimisation des performances
Si la vitesse de génération est nettement plus lente que la vitesse de référence :
- Vérifiez que CUDA et PyTorch sont correctement installés
- Confirmez que le pilote GPU est à jour
- Fermez les programmes d'arrière-plan inutiles
- Consultez le guide de dépannage de l'Issue #151
Informations de citation
Si vous utilisez FramePack dans vos recherches, veuillez citer les articles suivants :
@inproceedings{zhang2025framepack,
title={Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models},
author={Lvmin Zhang and Shengqu Cai and Muyang Li and Gordon Wetzstein and Maneesh Agrawala},
booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems},
year={2025},
}
@article{zhang2025framepackv1,
title={Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation},
author={Lvmin Zhang and Maneesh Agrawala},
journal={Arxiv},
year={2025}
}
Importance du projet
FramePack, grâce à ses techniques innovantes de compression du contexte d'image et d'anti-dérive, a réussi à réduire le coût mémoire de la diffusion vidéo à un niveau constant, rendant possible la génération de vidéos longues sur du matériel grand public. Cette avancée permet :
- Aux créateurs individuels de générer des vidéos longues de haute qualité sur un PC portable
- Aux chercheurs d'entraîner des modèles vidéo sur des équipements à l'échelle du laboratoire
- Aux développeurs d'intégrer plus facilement des capacités de génération vidéo dans leurs applications
FramePack rend la génération vidéo véritablement pratique, tout comme Stable Diffusion a rendu la génération d'images accessible à tous.