Triton Inference Serverは、AI推論プロセスを簡素化することを目的としたオープンソースの推論サービスソフトウェアです。TensorRT、TensorFlow、PyTorch、ONNX、OpenVINO、Python、RAPIDS FILなど、複数の深層学習および機械学習フレームワークからのあらゆるAIモデルをチームがデプロイできるようにします。
プロジェクトアドレス: https://github.com/triton-inference-server/server
Triton Inference Serverは、クラウド、データセンター、エッジ、および組み込みデバイスでの推論をサポートし、NVIDIA GPU、x86およびARM CPU、またはAWS Inferentiaをサポートします。
git clone -b r25.02 https://github.com/triton-inference-server/server.git
cd server/docs/examples
./fetch_models.sh
docker run --gpus=1 --rm --net=host -v ${PWD}/model_repository:/models \
nvcr.io/nvidia/tritonserver:25.02-py3 \
tritonserver --model-repository=/models --model-control-mode explicit \
--load-model densenet_onnx
docker run -it --rm --net=host nvcr.io/nvidia/tritonserver:25.02-py3-sdk \
/workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION \
/workspace/images/mug.jpg
Triton Inference Serverは、NVIDIAが提供するエンタープライズ級AI推論サービスソリューションであり、以下の主要な利点があります。
スタートアップ企業であろうと大企業であろうと、Triton Inference Serverは、信頼性が高く効率的なAIモデルデプロイソリューションを提供し、組織がAIアプリケーションの産業化されたデプロイを迅速に実現するのに役立ちます。