MiniMindは、極めて軽量な大規模言語モデル訓練フレームワークであり、最小バージョンはGPT-3の1/7000のサイズで、通常の個人用GPUで高速に訓練できます。このプロジェクトでは、26Mパラメータの小規模なGPTモデルを2時間以内に完全にゼロから訓練できます。
プロジェクトは、大規模モデルの非常にシンプルな構造をオープンソースで公開し、以下のコア機能が含まれています。
MiniMindは、テキスト生成、対話インタラクション、知識検索など、さまざまなタスクを実行できます。与えられたプロンプトまたはコンテキストに基づいてテキストを生成し、対話インタラクションを行い、さまざまなトピックの知識を検索できます。
このプロジェクトの目標は、LLMの学習ハードルを下げ、誰もがすべてのコード行を理解することから始め、非常に小さな言語モデルを訓練できるようにすることです。プロジェクトは「積み木で飛行機を作る」というコンセプトを採用し、ユーザーが高度なカプセル化によって隔離されるのではなく、LLMの基盤となる実装を深く理解できるようにします。
# プロジェクトをクローン
git clone https://github.com/jingyaogong/minimind.git
cd minimind
# 依存関係をインストール
pip install -r requirements.txt
# シングルGPU訓練
python train.py
# マルチGPU訓練 (N>1)
torchrun --nproc_per_node N train.py
# wandb監視を有効にする
wandb login
python train.py --use_wandb
# プロジェクト名を指定
python train.py --wandb_project "my_minimind" --wandb_run_name "experiment_1"
MiniMindは、画期的な軽量LLM訓練フレームワークであり、限られた計算リソースでも実用的な対話能力を備えた言語モデルを訓練できることを証明しています。このプロジェクトは、完全な訓練ツールチェーンを提供するだけでなく、AI学習者と研究者がLLMの内部メカニズムを理解するための優れたプラットフォームを提供します。「ゼロから始め、すべてのコード行を理解する」というコンセプトを通じて、MiniMindは人工知能技術を民主化し、より多くの人々が大規模モデルの開発と研究に参加できるようにしています。