lllyasviel/FramePack View GitHub Homepage for Latest Official Releases

実用的な動画拡散モデル。フレームコンテキスト圧縮により、一定のメモリ消費を実現。わずか6GBのメモリで最大60秒の高品質動画を生成可能。

Apache-2.0PythonFramePacklllyasviel 16.2k Last Updated: October 16, 2025

FramePack - 実用的な動画拡散モデル

プロジェクト概要

FramePack は、実用的な動画生成のために設計された、画期的な次フレーム予測ニューラルネットワーク構造です。このプロジェクトは、スタンフォード大学とマサチューセッツ工科大学の研究チームによって開発され、動画拡散モデルを画像拡散モデルのように軽量で使いやすいものにすることを目指しています。

コア機能

1. 一定のVRAM使用量 (O(1) メモリ複雑度)

FramePackの最大の革新は、入力フレームのコンテキストを一定の長さに圧縮することで、生成ワークロードが動画の長さに依存しなくなる点です。これは以下のことを意味します。

わずか6GBのVRAMで60秒（1800フレーム、30fps）の動画を生成可能
1秒の動画生成と1分の動画生成で消費するVRAMは同じ
ノートPCのGPU（RTX 3060/3070Tiなど）で13Bパラメータモデルの実行をサポート
訓練バッチサイズは64に達し（単一の8×A100/H100ノード）、画像拡散モデルの訓練に匹敵

2. フレームコンテキスト圧縮技術

FramePackは、可変パッチサイズを使用して各履歴フレームをトークン化し、フレームの重要度に応じて異なるコンテキスト長を割り当てます。

時間的近接度による重み付け: 現在のフレームに近いフレームほど、より長いコンテキストを獲得
特徴類似度による重み付け: 現在のコンテンツに関連するフレームほど、より多くの詳細を保持
複合的な評価指標: 上記2つの戦略を組み合わせて圧縮効果を最適化

例: HunyuanVideoでは、480pのフレームは通常、(1, 2, 2)のパッチカーネルを使用すると1536トークンを生成します。

3. ドリフト防止技術 (Anti-Drifting)

FramePackは、自己回帰的な動画生成における誤差蓄積の問題に対し、複数のドリフト防止手法を提案しています。

FramePack-F1 (前方生成バージョン)

単一の前方フレーム予測
リアルタイムストリーミングシナリオに適応
新しいドリフト防止正則化により誤差蓄積を防止

FramePack-P1 (計画生成バージョン)

以下の2つのコア設計を含みます。

a) 計画的ドリフト防止 (Planned Anti-Drifting)

まず遠方のキーフレーム終点を生成
次に中間セグメントを補完
フレームが計画された終点間でドリフトしないことを保証

b) 履歴の離散化 (History Discretization)

すべての履歴フレームを離散化トークンに変換（データセット全体にK-Meansを適用）
訓練と推論間の履歴表現の差異を低減
終点自体がドリフトするのを防止

4. 双方向サンプリング戦略

終了フレームから開始フレームへの逆方向生成をサポート
開始フレームと終了フレームのアンカーを組み合わせた双方向コンテキスト
因果予測チェーンを打破し、観測バイアスを効果的に低減

性能表現

生成速度

RTX 4090デスクトップ:
- 未最適化: 2.5秒/フレーム
- teacache使用時: 1.5秒/フレーム
ノートPC GPU (3070Ti/3060): RTX 4090の約4～8倍遅い
リアルタイム視覚フィードバック（次フレーム予測機能）をサポート

VRAM要件

最低: 6GB VRAM
推奨: RTX 30XX/40XX/50XXシリーズ (fp16およびbf16をサポート)
オペレーティングシステム: WindowsまたはLinux

訓練効率

単一の8×A100-80Gノードでバッチサイズ64を達成可能
480p解像度、13B HunyuanVideoモデル、LoRA訓練
ウィンドウサイズ2または3でバッチサイズ64、ウィンドウサイズ4または5でバッチサイズ32
個人または研究室規模の訓練に適しています

使用方法

Windowsインストール (ワンクリックパッケージ)

ワンクリックインストールパッケージをダウンロード:

https://github.com/lllyasviel/FramePack/releases/download/windows/framepack_cu126_torch26.7z

ファイルを解凍
更新スクリプトを実行:

update.bat

プログラムを起動:

run.bat

注意: 初回実行時にはHuggingFaceから30GB以上のモデルファイルをダウンロードする必要があります。

Linuxインストール

Python 3.10環境が必要です。

# PyTorchをインストール
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

# 依存関係をインストール
pip install -r requirements.txt

# GUIを起動
python demo_gradio.py

サポートされるコマンドライン引数:

--share: 公開リンク共有を有効にする
--port: ポート番号を指定する
--server: サーバーアドレスを指定する

オプションの高速化コンポーネント

プロジェクトは複数のアテンションメカニズム最適化をサポートしています。

PyTorch attention (デフォルト)
xformers
flash-attn
sage-attention

sage-attentionのインストール例 (Linux):

pip install sageattention==1.0.6

使用インターフェース

基本的なワークフロー

左側パネル: 初期画像をアップロードし、プロンプトを記述
右側パネル: 生成された動画と潜在空間プレビューを表示
進捗表示: 各セグメントの進捗バーと次のセグメントの潜在プレビューをリアルタイムで表示

動画生成メカニズム

次フレームセグメント予測モデルを採用しているため、動画はセグメントごとに生成されます。

最初は1秒程度の短い動画しか表示されない場合があります
続けて待つと、より多くのセグメントが順次生成されます
最終的に完全な長さの動画が完成します

推奨ワークフロー

迅速なプロトタイピング:

teacache加速を有効にする
アイデアやプロンプトを素早くテストする

最終出力:

teacacheを無効にする
完全な拡散プロセスを使用して高品質な結果を得る

注意: teacache、sage-attention、bnb量子化、ggufなどの最適化手法は結果の品質に影響を与える可能性があります。迅速なイテレーション時のみ使用することをお勧めします。

プロンプト作成のヒント

推奨フォーマット

簡潔な動きに焦点を当てたプロンプトが最も効果的です。

主体 + 動作の記述 + その他の詳細

例:

"The girl dances gracefully, with clear movements, full of charm." (少女が優雅に踊る、はっきりとした動きで、魅力に満ちている。)
"The man dances powerfully, with clear movements, full of energy." (男性が力強く踊る、はっきりとした動きで、エネルギーに満ちている。)
"The woman spins elegantly among cherry blossoms, with flowing sleeves." (女性が桜の中で優雅に舞う、袖がひらめいている。)

ChatGPTプロンプト生成テンプレート

以下のテンプレートを使用して、ChatGPTにプロンプト生成を補助させることができます。

You are an assistant that writes short, motion-focused prompts for animating images.

When the user sends an image, respond with a single, concise prompt describing visual motion 
(such as human activity, moving objects, or camera movements). Focus only on how the scene 
could come alive and become dynamic using brief phrases.

Larger and more dynamic motions (like dancing, jumping, running, etc.) are preferred over 
smaller or more subtle ones (like standing still, sitting, etc.).

Describe subject, then motion, then other things. 
For example: "The girl dances gracefully, with clear movements, full of charm."

If there is something that can dance (like a man, girl, robot, etc.), then prefer to 
describe it as dancing.

Stay in a loop: one image in, one motion prompt out. Do not explain, ask questions, 
or generate multiple options.

バージョン履歴

2025年7月14日

FramePack-P1のテキストからビデオへのドリフト防止ストレステスト結果をアップロード
参照画像なしで一般的なプロンプトを使用

2025年6月26日

FramePack-P1の結果デモンストレーションを公開
計画的ドリフト防止と履歴の離散化設計を導入

2025年5月3日

FramePack-F1前方生成バージョンを公開
より大きなダイナミックレンジと少ない制約を持つ単方向予測を提供

技術アーキテクチャ

ベースモデル

FramePackは既存の動画拡散モデルと組み合わせて使用できます。

HunyuanVideo: 主要なテストプラットフォーム（改良版）
Wan 2.1: 公式Wanモデルをサポート

モデル改善 (HunyuanVideoバージョン)

SigLip-Visionモデル (google/siglip-so400m-patch14-384) をビジョンエンコーダーとして追加
Tencent内部のMLLMへの依存を削除
LLama3.1を純粋なテキストモデルとして凍結
高品質データで継続訓練

アーキテクチャの互換性

テキストからビデオ (Text-to-Video) および画像からビデオ (Image-to-Video) をサポート
アーキテクチャの変更なしに両モードを自然にサポート
既存の事前訓練済み動画拡散モデルをファインチューニング可能

応用シーン

1. 画像からビデオ (Image-to-Video)

静止画像を動的な動画に変換し、詳細な動作記述をサポート

2. 長尺動画生成

最大60秒の連続した動画を生成
数千フレームの処理能力をサポート
時空間の一貫性を維持

3. プロンプトトラベリング (Prompt Travelling)

F1バージョンに特に適しており、動画生成中にプロンプトを段階的に変化させることをサポート

4. リアルタイムストリーミング

F1バージョンはストリーミング生成をサポートしており、リアルタイムアプリケーションシナリオに適しています

コミュニティリソース

ComfyUI統合

ComfyUI-FramePackWrapper: https://github.com/kijai/ComfyUI-FramePackWrapper
ComfyUI_RH_FramePack: https://github.com/HM-RunningHub/ComfyUI_RH_FramePack

オンライン利用

RunningHubプラットフォームで無料でオンライン利用可能
事前設定されたワークフローが含まれています

重要なお知らせ

公式サイトに関する声明

唯一の公式サイト: https://github.com/lllyasviel/FramePack

以下のドメインはすべて偽サイトおよびスパムサイトです。アクセスしたり、支払いをしたりしないでください。

framepack.co, frame_pack.co
framepack.net, frame_pack.net
framepack.ai, frame_pack.ai
framepack.pro, frame_pack.pro
framepack.cc, frame_pack.cc
framepackai.co およびその他のすべてのバリエーション

ハードウェアへの感度

次フレームセグメント予測モデルは、ノイズやハードウェアのわずかな違いに非常に敏感です。

異なるデバイスでは、わずかに異なる結果が生成される可能性があります
全体的な視覚効果は類似しているはずです
特定の状況では、完全に同じ結果が得られることもあります

パフォーマンス最適化のヒント

生成速度が参照速度よりも著しく遅い場合:

CUDAとPyTorchが正しくインストールされているか確認してください
GPUドライバーが最新バージョンであることを確認してください
不要なバックグラウンドプログラムを終了してください
Issue #151のトラブルシューティングガイドを参照してください

引用情報

研究でFramePackを使用する場合は、以下の論文を引用してください。

@inproceedings{zhang2025framepack,
  title={Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models},
  author={Lvmin Zhang and Shengqu Cai and Muyang Li and Gordon Wetzstein and Maneesh Agrawala},
  booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems},
  year={2025},
}

@article{zhang2025framepackv1,
  title={Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation},
  author={Lvmin Zhang and Maneesh Agrawala},
  journal={Arxiv},
  year={2025}
}

プロジェクトの意義

FramePackは、革新的なフレームコンテキスト圧縮とドリフト防止技術により、動画拡散のメモリコストを一定レベルに削減することに成功し、コンシューマー向けハードウェアでの長尺動画生成を可能にしました。このブレークスルーにより、以下のことが実現します。

個人クリエイターはノートPCで高品質な長尺動画を生成できるようになります
研究者は研究室規模のデバイスで動画モデルの訓練を行えるようになります
開発者は動画生成機能をアプリケーションに容易に統合できるようになります

FramePackは、Stable Diffusionが画像生成を手の届くものにしたように、動画生成を真に実用的なものにします。