Triton Inference Server是一款开源的推理服务软件,旨在简化AI推理流程。它使团队能够部署来自多个深度学习和机器学习框架的任何AI模型,包括TensorRT、TensorFlow、PyTorch、ONNX、OpenVINO、Python、RAPIDS FIL等。
项目地址: https://github.com/triton-inference-server/server
Triton Inference Server支持在云端、数据中心、边缘和嵌入式设备上进行推理,支持NVIDIA GPU、x86和ARM CPU,或AWS Inferentia。
git clone -b r25.02 https://github.com/triton-inference-server/server.git
cd server/docs/examples
./fetch_models.sh
docker run --gpus=1 --rm --net=host -v ${PWD}/model_repository:/models \
nvcr.io/nvidia/tritonserver:25.02-py3 \
tritonserver --model-repository=/models --model-control-mode explicit \
--load-model densenet_onnx
docker run -it --rm --net=host nvcr.io/nvidia/tritonserver:25.02-py3-sdk \
/workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION \
/workspace/images/mug.jpg
Triton Inference Server是NVIDIA推出的企业级AI推理服务解决方案,具有以下核心优势:
无论是初创公司还是大型企业,Triton Inference Server都能提供可靠、高效的AI模型部署解决方案,帮助组织快速实现AI应用的产业化部署。