mistral-inference 是由 Mistral AI 官方开发的 Mistral 模型推理库,提供了运行各种 Mistral 模型的最小化代码实现。这个项目为用户提供了一个高效、简洁的方式来部署和使用 Mistral 系列的大语言模型。
mistral-demo
和 mistral-chat
命令快速测试和交互torchrun
支持大模型的分布式推理from mistral_inference.transformer import Transformer
from mistral_inference.generate import generate
from mistral_common.tokens.tokenizers.mistral import MistralTokenizer
from mistral_common.protocol.instruct.messages import UserMessage
from mistral_common.protocol.instruct.request import ChatCompletionRequest
# 加载模型和分词器
tokenizer = MistralTokenizer.from_file("./mistral-nemo-instruct-v0.1/tekken.json")
model = Transformer.from_folder("./mistral-nemo-instruct-v0.1")
# 生成响应
prompt = "How expensive would it be to ask a window cleaner to clean all windows in Paris?"
completion_request = ChatCompletionRequest(messages=[UserMessage(content=prompt)])
tokens = tokenizer.encode_chat_completion(completion_request).tokens
out_tokens, _ = generate([tokens], model, max_tokens=1024, temperature=0.35)
支持图像和文本的联合推理,可以分析图片内容并回答相关问题:
# 多模态内容处理
user_content = [ImageURLChunk(image_url=url), TextChunk(text=prompt)]
tokens, images = tokenizer.instruct_tokenizer.encode_user_content(user_content, False)
out_tokens, _ = generate([tokens], model, images=[images], max_tokens=256)
所有模型都支持函数调用功能,可以与外部工具和API集成:
# 定义工具函数
tools=[Tool(function=Function(
name="get_current_weather",
description="Get the current weather",
parameters={...}
))]
# 执行函数调用
completion_request = ChatCompletionRequest(tools=tools, messages=[...])
专门针对代码编辑场景,支持中间填充式代码生成:
prefix = "def add("
suffix = " return sum"
request = FIMRequest(prompt=prefix, suffix=suffix)
tokens = tokenizer.encode_fim(request).tokens
pip install mistral-inference
cd $HOME && git clone https://github.com/mistralai/mistral-inference
cd $HOME/mistral-inference && poetry install .
# 创建模型存储目录
export MISTRAL_MODEL=$HOME/mistral_models
mkdir -p $MISTRAL_MODEL
# 下载模型(以Mistral Nemo为例)
export 12B_DIR=$MISTRAL_MODEL/12B_Nemo
wget https://models.mistralcdn.com/mistral-nemo-2407/mistral-nemo-instruct-2407.tar
mkdir -p $12B_DIR
tar -xf mistral-nemo-instruct-2407.tar -C $12B_DIR
# 单GPU模型
mistral-chat $12B_DIR --instruct --max_tokens 1024 --temperature 0.35
# 多GPU大模型
torchrun --nproc-per-node 2 --no-python mistral-chat $M8x7B_DIR --instruct
mistral-chat $M22B_CODESTRAL --instruct --max_tokens 256
可以处理如"Write me a function that computes fibonacci in Rust"这样的编程请求。
mistral-chat $7B_MATHSTRAL --instruct --max_tokens 256
能够解决复杂的数学计算问题。
在商业环境中使用时,请仔细检查相应模型的许可证条款,确保合规使用。
Mistral推理库是一个功能强大、易于使用的大语言模型推理框架。它不仅提供了完整的Mistral模型系列支持,还包含了丰富的功能特性,从基础的文本生成到高级的多模态推理和函数调用。无论是企业级部署还是个人研究使用,这个库都能提供高效、可靠的解决方案。