ONNX Runtime (ORT) est un accélérateur d'inférence de machine learning multiplateforme, conçu pour accélérer le processus d'inférence des modèles ONNX (Open Neural Network Exchange). Développé et mis en open source par Microsoft, il prend en charge une variété de plateformes matérielles et de systèmes d'exploitation, et offre des capacités d'inférence haute performance.
Objectifs principaux :
L'architecture d'ONNX Runtime comprend principalement les parties suivantes :
pip install onnxruntime
(version CPU) ou pip install onnxruntime-gpu
(version GPU).onnxruntime.InferenceSession
pour charger le modèle ONNX.InferenceSession.run()
pour exécuter l'inférence et obtenir les résultats de sortie.Exemple de code (Python) :
import onnxruntime
import numpy as np
# Charger le modèle ONNX
session = onnxruntime.InferenceSession("model.onnx")
# Obtenir les informations d'entrée et de sortie
input_name = session.get_inputs()[0].name
output_name = session.get_outputs()[0].name
# Préparer les données d'entrée
input_data = np.random.randn(1, 3, 224, 224).astype(np.float32)
# Exécuter l'inférence
output_data = session.run([output_name], {input_name: input_data})
# Afficher les résultats de sortie
print(output_data)
ONNX Runtime est un puissant accélérateur d'inférence de machine learning qui peut aider les utilisateurs à accélérer le processus d'inférence des modèles ONNX et à améliorer les performances des applications. Il présente des avantages tels que la haute performance, la multiplateforme, la facilité d'intégration, la flexibilité et l'extensibilité, et convient à diverses tâches d'apprentissage automatique.