mistralai/mistral-inference

Mistralモデルの公式推論ライブラリ。Mistral AIモデルを実行するための最小限のコード実装が含まれています。

Apache-2.0Jupyter Notebook 10.3kmistralai Last Updated: 2025-03-20

https://github.com/mistralai/mistral-inference

Mistral推論ライブラリ (mistral-inference) 詳細紹介

プロジェクト概要

mistral-inference は、Mistral AI が公式に開発した Mistral モデル推論ライブラリで、様々な Mistral モデルを実行するための最小限のコード実装を提供します。このプロジェクトは、ユーザーに Mistral シリーズの大規模言語モデルを効率的かつ簡潔な方法でデプロイおよび使用できるようにします。

プロジェクトアドレス: https://github.com/mistralai/mistral-inference
公式ドキュメント: https://docs.mistral.ai/

サポートされるモデルシリーズ

基礎モデル

Mistral 7B: 基礎および指示バージョン、関数呼び出しをサポート
Mixtral 8x7B: エキスパート混合モデル、高性能推論
Mixtral 8x22B: より大規模なエキスパート混合モデル
Mistral Nemo 12B: 中規模で効率的なモデル
Mistral Large 2: 最新の大規模モデル
Mistral Small 3.1 24B: マルチモーダルをサポートする中規模モデル

専用モデル

Codestral 22B: コード生成およびプログラミングタスク専用
Codestral Mamba 7B: Mamba アーキテクチャに基づくコードモデル
Mathstral 7B: 数学的推論専用のモデル
Pixtral 12B: マルチモーダル視覚言語モデル

コア機能特性

1. 多様な推論モード

コマンドラインインターフェース (CLI): mistral-demo および mistral-chat コマンドによる迅速なテストとインタラクション
Python API: 完全なプログラミングインターフェース、カスタム統合をサポート
多GPUサポート: torchrun による大規模モデルの分散推論をサポート

2. 豊富なアプリケーションシナリオ

指示追従 (Instruction Following)

from mistral_inference.transformer import Transformer
from mistral_inference.generate import generate
from mistral_common.tokens.tokenizers.mistral import MistralTokenizer
from mistral_common.protocol.instruct.messages import UserMessage
from mistral_common.protocol.instruct.request import ChatCompletionRequest

# モデルとトークナイザーをロード
tokenizer = MistralTokenizer.from_file("./mistral-nemo-instruct-v0.1/tekken.json")
model = Transformer.from_folder("./mistral-nemo-instruct-v0.1")

# 応答を生成
prompt = "How expensive would it be to ask a window cleaner to clean all windows in Paris?"
completion_request = ChatCompletionRequest(messages=[UserMessage(content=prompt)])
tokens = tokenizer.encode_chat_completion(completion_request).tokens
out_tokens, _ = generate([tokens], model, max_tokens=1024, temperature=0.35)

マルチモーダル推論

画像とテキストの連携推論をサポートし、画像の内容を分析して関連する質問に回答できます。

# マルチモーダルコンテンツ処理
user_content = [ImageURLChunk(image_url=url), TextChunk(text=prompt)]
tokens, images = tokenizer.instruct_tokenizer.encode_user_content(user_content, False)
out_tokens, _ = generate([tokens], model, images=[images], max_tokens=256)

関数呼び出し (Function Calling)

すべてのモデルが関数呼び出し機能をサポートし、外部ツールや API と統合できます。

# ツール関数を定義
tools=[Tool(function=Function(
    name="get_current_weather",
    description="Get the current weather",
    parameters={...}
))]

# 関数呼び出しを実行
completion_request = ChatCompletionRequest(tools=tools, messages=[...])

コード補完 (Fill-in-the-middle)

コード編集シーン専用に、中間埋め込み式コード生成をサポートします。

prefix = "def add("
suffix = " return sum"
request = FIMRequest(prompt=prefix, suffix=suffix)
tokens = tokenizer.encode_fim(request).tokens

3. 柔軟なデプロイオプション

ローカルデプロイ

シングルGPUデプロイ: より小さいモデル (7B, 12B) に適しています
マルチGPUデプロイ: 大規模モデル (8x7B, 8x22B) の分散推論をサポート
Dockerコンテナ化: vLLM 統合の Docker イメージを提供

クラウドデプロイ

Mistral AI 公式 API: La Plateforme クラウドサービス
クラウドサービスプロバイダー: 複数の主要なクラウドプラットフォームをサポート

インストールと設定

システム要件

GPUサポート: xformers ライブラリに依存するため、GPU 環境が必要です
Python環境: 最新の Python バージョンをサポート
ストレージ容量: モデルのサイズに応じて十分なディスク容量が必要です

インストール方法

pip によるインストール

pip install mistral-inference

ソースコードからのインストール

cd $HOME && git clone https://github.com/mistralai/mistral-inference
cd $HOME/mistral-inference && poetry install .

モデルのダウンロードと設定

# モデルストレージディレクトリを作成
export MISTRAL_MODEL=$HOME/mistral_models
mkdir -p $MISTRAL_MODEL

# モデルをダウンロード（Mistral Nemo を例として）
export 12B_DIR=$MISTRAL_MODEL/12B_Nemo
wget https://models.mistralcdn.com/mistral-nemo-2407/mistral-nemo-instruct-2407.tar
mkdir -p $12B_DIR
tar -xf mistral-nemo-instruct-2407.tar -C $12B_DIR

使用例

基本的なチャットインタラクション

# シングルGPUモデル
mistral-chat $12B_DIR --instruct --max_tokens 1024 --temperature 0.35

# マルチGPU大規模モデル
torchrun --nproc-per-node 2 --no-python mistral-chat $M8x7B_DIR --instruct

専用モデルの使用

Codestral コードアシスタント

mistral-chat $M22B_CODESTRAL --instruct --max_tokens 256

"Write me a function that computes fibonacci in Rust" のようなプログラミングリクエストを処理できます。

Mathstral 数学推論

mistral-chat $7B_MATHSTRAL --instruct --max_tokens 256

複雑な数学計算問題を解決できます。

ライセンスとコンプライアンス

モデルごとのライセンス

オープンソースモデル: ほとんどの基礎モデルはオープンソースライセンスを採用
Codestral 22B: Mistral AI Non-Production (MNPL) License を使用、非商用利用のみ
Mistral Large: Mistral AI Research (MRL) License を使用、主に研究目的

コンプライアンスに関する推奨事項

商用環境で使用する場合は、該当するモデルのライセンス条項を注意深く確認し、コンプライアンスを確保してください。

技術的優位性

パフォーマンス最適化

効率的な推論: Mistral モデルアーキテクチャに合わせて特別に最適化
メモリ管理: インテリジェントなメモリ使用戦略、大規模モデルの推論をサポート
並列処理: マルチGPU並列処理をサポートし、推論速度を向上

使いやすさ

簡潔なAPI: シンプルで直感的な Python インターフェースを提供
豊富なドキュメント: 充実した使用例とドキュメントサポート
コミュニティサポート: 活発な開発者コミュニティと Discord チャンネル

拡張性

モジュール設計: 既存のプロジェクトに簡単に統合可能
カスタム設定: 様々な推論パラメータの柔軟な設定をサポート
ツール統合: 様々な外部ツールやサービスとの統合をサポート

アプリケーションシナリオ

エンタープライズアプリケーション

インテリジェントカスタマーサービス: 高品質な対話システムの構築
コンテンツ生成: コンテンツの自動作成と編集
コードアシスタンス: 開発環境でのコード生成とレビュー

研究開発

学術研究: 言語モデルの研究と実験
プロトタイプ開発: AI アプリケーションのプロトタイプを迅速に構築
パフォーマンステスト: モデルのパフォーマンス評価と比較

個人と教育

学習アシスタント: 個別化された学習と指導ツール
クリエイティブライティング: クリエイティブコンテンツの作成支援
技術学習: プログラミングと技術概念の学習サポート

まとめ

Mistral 推論ライブラリは、強力で使いやすい大規模言語モデル推論フレームワークです。完全な Mistral モデルシリーズのサポートを提供するだけでなく、基本的なテキスト生成から高度なマルチモーダル推論や関数呼び出しまで、豊富な機能特性が含まれています。エンタープライズレベルのデプロイメントでも、個人の研究利用でも、このライブラリは効率的で信頼性の高いソリューションを提供できます。