実用的な動画拡散モデル。フレームコンテキスト圧縮により、一定のメモリ消費を実現。わずか6GBのメモリで最大60秒の高品質動画を生成可能。

Apache-2.0PythonFramePacklllyasviel 16.2k Last Updated: October 16, 2025

FramePack - 実用的な動画拡散モデル

プロジェクト概要

FramePack は、実用的な動画生成のために設計された、画期的な次フレーム予測ニューラルネットワーク構造です。このプロジェクトは、スタンフォード大学とマサチューセッツ工科大学の研究チームによって開発され、動画拡散モデルを画像拡散モデルのように軽量で使いやすいものにすることを目指しています。


コア機能

1. 一定のVRAM使用量 (O(1) メモリ複雑度)

FramePackの最大の革新は、入力フレームのコンテキストを一定の長さに圧縮することで、生成ワークロードが動画の長さに依存しなくなる点です。これは以下のことを意味します。

  • わずか6GBのVRAMで60秒(1800フレーム、30fps)の動画を生成可能
  • 1秒の動画生成と1分の動画生成で消費するVRAMは同じ
  • ノートPCのGPU(RTX 3060/3070Tiなど)で13Bパラメータモデルの実行をサポート
  • 訓練バッチサイズは64に達し(単一の8×A100/H100ノード)、画像拡散モデルの訓練に匹敵

2. フレームコンテキスト圧縮技術

FramePackは、可変パッチサイズを使用して各履歴フレームをトークン化し、フレームの重要度に応じて異なるコンテキスト長を割り当てます。

  • 時間的近接度による重み付け: 現在のフレームに近いフレームほど、より長いコンテキストを獲得
  • 特徴類似度による重み付け: 現在のコンテンツに関連するフレームほど、より多くの詳細を保持
  • 複合的な評価指標: 上記2つの戦略を組み合わせて圧縮効果を最適化

例: HunyuanVideoでは、480pのフレームは通常、(1, 2, 2)のパッチカーネルを使用すると1536トークンを生成します。

3. ドリフト防止技術 (Anti-Drifting)

FramePackは、自己回帰的な動画生成における誤差蓄積の問題に対し、複数のドリフト防止手法を提案しています。

FramePack-F1 (前方生成バージョン)

  • 単一の前方フレーム予測
  • リアルタイムストリーミングシナリオに適応
  • 新しいドリフト防止正則化により誤差蓄積を防止

FramePack-P1 (計画生成バージョン)

以下の2つのコア設計を含みます。

a) 計画的ドリフト防止 (Planned Anti-Drifting)

  • まず遠方のキーフレーム終点を生成
  • 次に中間セグメントを補完
  • フレームが計画された終点間でドリフトしないことを保証

b) 履歴の離散化 (History Discretization)

  • すべての履歴フレームを離散化トークンに変換(データセット全体にK-Meansを適用)
  • 訓練と推論間の履歴表現の差異を低減
  • 終点自体がドリフトするのを防止

4. 双方向サンプリング戦略

  • 終了フレームから開始フレームへの逆方向生成をサポート
  • 開始フレームと終了フレームのアンカーを組み合わせた双方向コンテキスト
  • 因果予測チェーンを打破し、観測バイアスを効果的に低減

性能表現

生成速度

  • RTX 4090デスクトップ:
    • 未最適化: 2.5秒/フレーム
    • teacache使用時: 1.5秒/フレーム
  • ノートPC GPU (3070Ti/3060): RTX 4090の約4~8倍遅い
  • リアルタイム視覚フィードバック(次フレーム予測機能)をサポート

VRAM要件

  • 最低: 6GB VRAM
  • 推奨: RTX 30XX/40XX/50XXシリーズ (fp16およびbf16をサポート)
  • オペレーティングシステム: WindowsまたはLinux

訓練効率

  • 単一の8×A100-80Gノードでバッチサイズ64を達成可能
  • 480p解像度、13B HunyuanVideoモデル、LoRA訓練
  • ウィンドウサイズ2または3でバッチサイズ64、ウィンドウサイズ4または5でバッチサイズ32
  • 個人または研究室規模の訓練に適しています

使用方法

Windowsインストール (ワンクリックパッケージ)

  1. ワンクリックインストールパッケージをダウンロード:
https://github.com/lllyasviel/FramePack/releases/download/windows/framepack_cu126_torch26.7z
  1. ファイルを解凍

  2. 更新スクリプトを実行:

update.bat
  1. プログラムを起動:
run.bat

注意: 初回実行時にはHuggingFaceから30GB以上のモデルファイルをダウンロードする必要があります。

Linuxインストール

Python 3.10環境が必要です。

# PyTorchをインストール
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

# 依存関係をインストール
pip install -r requirements.txt

# GUIを起動
python demo_gradio.py

サポートされるコマンドライン引数:

  • --share: 公開リンク共有を有効にする
  • --port: ポート番号を指定する
  • --server: サーバーアドレスを指定する

オプションの高速化コンポーネント

プロジェクトは複数のアテンションメカニズム最適化をサポートしています。

  • PyTorch attention (デフォルト)
  • xformers
  • flash-attn
  • sage-attention

sage-attentionのインストール例 (Linux):

pip install sageattention==1.0.6

使用インターフェース

基本的なワークフロー

  1. 左側パネル: 初期画像をアップロードし、プロンプトを記述
  2. 右側パネル: 生成された動画と潜在空間プレビューを表示
  3. 進捗表示: 各セグメントの進捗バーと次のセグメントの潜在プレビューをリアルタイムで表示

動画生成メカニズム

次フレームセグメント予測モデルを採用しているため、動画はセグメントごとに生成されます。

  • 最初は1秒程度の短い動画しか表示されない場合があります
  • 続けて待つと、より多くのセグメントが順次生成されます
  • 最終的に完全な長さの動画が完成します

推奨ワークフロー

迅速なプロトタイピング:

  • teacache加速を有効にする
  • アイデアやプロンプトを素早くテストする

最終出力:

  • teacacheを無効にする
  • 完全な拡散プロセスを使用して高品質な結果を得る

注意: teacache、sage-attention、bnb量子化、ggufなどの最適化手法は結果の品質に影響を与える可能性があります。迅速なイテレーション時のみ使用することをお勧めします。


プロンプト作成のヒント

推奨フォーマット

簡潔な動きに焦点を当てたプロンプトが最も効果的です。

主体 + 動作の記述 + その他の詳細

:

  • "The girl dances gracefully, with clear movements, full of charm." (少女が優雅に踊る、はっきりとした動きで、魅力に満ちている。)
  • "The man dances powerfully, with clear movements, full of energy." (男性が力強く踊る、はっきりとした動きで、エネルギーに満ちている。)
  • "The woman spins elegantly among cherry blossoms, with flowing sleeves." (女性が桜の中で優雅に舞う、袖がひらめいている。)

ChatGPTプロンプト生成テンプレート

以下のテンプレートを使用して、ChatGPTにプロンプト生成を補助させることができます。

You are an assistant that writes short, motion-focused prompts for animating images.

When the user sends an image, respond with a single, concise prompt describing visual motion 
(such as human activity, moving objects, or camera movements). Focus only on how the scene 
could come alive and become dynamic using brief phrases.

Larger and more dynamic motions (like dancing, jumping, running, etc.) are preferred over 
smaller or more subtle ones (like standing still, sitting, etc.).

Describe subject, then motion, then other things. 
For example: "The girl dances gracefully, with clear movements, full of charm."

If there is something that can dance (like a man, girl, robot, etc.), then prefer to 
describe it as dancing.

Stay in a loop: one image in, one motion prompt out. Do not explain, ask questions, 
or generate multiple options.

バージョン履歴

2025年7月14日

  • FramePack-P1のテキストからビデオへのドリフト防止ストレステスト結果をアップロード
  • 参照画像なしで一般的なプロンプトを使用

2025年6月26日

  • FramePack-P1の結果デモンストレーションを公開
  • 計画的ドリフト防止と履歴の離散化設計を導入

2025年5月3日

  • FramePack-F1前方生成バージョンを公開
  • より大きなダイナミックレンジと少ない制約を持つ単方向予測を提供

技術アーキテクチャ

ベースモデル

FramePackは既存の動画拡散モデルと組み合わせて使用できます。

  • HunyuanVideo: 主要なテストプラットフォーム(改良版)
  • Wan 2.1: 公式Wanモデルをサポート

モデル改善 (HunyuanVideoバージョン)

  1. SigLip-Visionモデル (google/siglip-so400m-patch14-384) をビジョンエンコーダーとして追加
  2. Tencent内部のMLLMへの依存を削除
  3. LLama3.1を純粋なテキストモデルとして凍結
  4. 高品質データで継続訓練

アーキテクチャの互換性

  • テキストからビデオ (Text-to-Video) および画像からビデオ (Image-to-Video) をサポート
  • アーキテクチャの変更なしに両モードを自然にサポート
  • 既存の事前訓練済み動画拡散モデルをファインチューニング可能

応用シーン

1. 画像からビデオ (Image-to-Video)

静止画像を動的な動画に変換し、詳細な動作記述をサポート

2. 長尺動画生成

  • 最大60秒の連続した動画を生成
  • 数千フレームの処理能力をサポート
  • 時空間の一貫性を維持

3. プロンプトトラベリング (Prompt Travelling)

F1バージョンに特に適しており、動画生成中にプロンプトを段階的に変化させることをサポート

4. リアルタイムストリーミング

F1バージョンはストリーミング生成をサポートしており、リアルタイムアプリケーションシナリオに適しています


コミュニティリソース

ComfyUI統合

オンライン利用

  • RunningHubプラットフォームで無料でオンライン利用可能
  • 事前設定されたワークフローが含まれています

重要なお知らせ

公式サイトに関する声明

唯一の公式サイト: https://github.com/lllyasviel/FramePack

以下のドメインはすべて偽サイトおよびスパムサイトです。アクセスしたり、支払いをしたりしないでください。

  • framepack.co, frame_pack.co
  • framepack.net, frame_pack.net
  • framepack.ai, frame_pack.ai
  • framepack.pro, frame_pack.pro
  • framepack.cc, frame_pack.cc
  • framepackai.co およびその他のすべてのバリエーション

ハードウェアへの感度

次フレームセグメント予測モデルは、ノイズやハードウェアのわずかな違いに非常に敏感です。

  • 異なるデバイスでは、わずかに異なる結果が生成される可能性があります
  • 全体的な視覚効果は類似しているはずです
  • 特定の状況では、完全に同じ結果が得られることもあります

パフォーマンス最適化のヒント

生成速度が参照速度よりも著しく遅い場合:

  1. CUDAとPyTorchが正しくインストールされているか確認してください
  2. GPUドライバーが最新バージョンであることを確認してください
  3. 不要なバックグラウンドプログラムを終了してください
  4. Issue #151のトラブルシューティングガイドを参照してください

引用情報

研究でFramePackを使用する場合は、以下の論文を引用してください。

@inproceedings{zhang2025framepack,
  title={Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models},
  author={Lvmin Zhang and Shengqu Cai and Muyang Li and Gordon Wetzstein and Maneesh Agrawala},
  booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems},
  year={2025},
}

@article{zhang2025framepackv1,
  title={Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation},
  author={Lvmin Zhang and Maneesh Agrawala},
  journal={Arxiv},
  year={2025}
}

プロジェクトの意義

FramePackは、革新的なフレームコンテキスト圧縮とドリフト防止技術により、動画拡散のメモリコストを一定レベルに削減することに成功し、コンシューマー向けハードウェアでの長尺動画生成を可能にしました。このブレークスルーにより、以下のことが実現します。

  • 個人クリエイターはノートPCで高品質な長尺動画を生成できるようになります
  • 研究者は研究室規模のデバイスで動画モデルの訓練を行えるようになります
  • 開発者は動画生成機能をアプリケーションに容易に統合できるようになります

FramePackは、Stable Diffusionが画像生成を手の届くものにしたように、動画生成を真に実用的なものにします。

Star History Chart