microsoft/onnxruntime View GitHub Homepage for Latest Official Releases

ONNX Runtime：跨平台、高效能的機器學習推論和訓練加速器。

MITC++onnxruntimemicrosoft 18.1k Last Updated: October 16, 2025

ONNX Runtime (ORT)

簡介

ONNX Runtime (ORT) 是一個跨平台的機器學習推論加速器，旨在加速 ONNX (Open Neural Network Exchange) 模型的推論過程。它由微軟開發並開源，支援多種硬體平台和作業系統，並提供了高效能的推論能力。

核心目標：

加速 ONNX 模型推論： 透過最佳化執行圖、利用硬體加速等手段，提高 ONNX 模型的推論速度。
跨平台支援： 支援 Windows、Linux、macOS 等作業系統，以及 CPU、GPU、FPGA 等多種硬體平台。
易於整合： 提供 C/C++、Python、Java、C# 等多種程式語言的 API，方便整合到各種應用中。
高效能： 透過各種最佳化技術，例如圖最佳化、算子融合、記憶體最佳化等，實現高效能的推論。
可擴展性： 允許使用者自定義算子和執行提供程序，以支援新的硬體平台和演算法。

主要特性

ONNX 模型支援： 完全支援 ONNX 標準，可以載入和執行符合 ONNX 規範的模型。
多種執行提供程序 (Execution Providers, EPs)：
- CPU EP: 使用 CPU 進行推論，支援多種 CPU 指令集最佳化 (例如 AVX2, AVX512)。
- CUDA EP: 使用 NVIDIA GPU 進行推論，利用 CUDA 加速。
- TensorRT EP: 使用 NVIDIA TensorRT 進行推論，進一步最佳化 GPU 效能。
- OpenVINO EP: 使用 Intel OpenVINO 工具包進行推論，最佳化 Intel CPU 和 GPU 效能。
- DirectML EP: 使用 Windows DirectML API 進行推論，利用 Windows 上的 GPU 資源。
- CoreML EP: 使用 Apple CoreML 框架進行推論，最佳化 Apple 設備上的效能。
- 其他 EP: 還支援其他硬體平台，例如 ARM NN、ACL 等。
圖最佳化： 自動最佳化 ONNX 模型圖，例如算子融合、常量折疊、節點消除等，減少計算量和記憶體佔用。
算子融合： 將多個算子合併成一個算子，減少算子之間的通訊開銷。
量化支援： 支援模型量化，將浮點數模型轉換為整數模型，減少模型大小和計算量，提高推論速度。
動態形狀支援： 支援具有動態形狀的 ONNX 模型，可以處理不同大小的輸入資料。
會話選項： 提供豐富的會話選項，可以控制推論過程的各個方面，例如線程數、記憶體分配、圖最佳化級別等。
除錯工具： 提供除錯工具，可以幫助使用者分析 ONNX 模型的效能瓶頸。
效能分析： 提供效能分析工具，可以幫助使用者了解 ONNX 模型的效能指標，例如推論時間、記憶體佔用等。
分散式推論： 支援分散式推論，可以将 ONNX 模型部署到多個設備上進行推論，提高推論吞吐量。

架構

ONNX Runtime 的架構主要包括以下幾個部分：

前端 (Frontend): 負責載入 ONNX 模型，並將其轉換為 ONNX Runtime 內部的表示形式。
圖最佳化器 (Graph Optimizer): 負責最佳化 ONNX 模型圖，例如算子融合、常量折疊等。
執行器 (Executor): 負責執行 ONNX 模型圖，根據不同的執行提供程序，將算子分配到不同的硬體平台上執行。
執行提供程序 (Execution Provider): 負責在特定的硬體平台上執行算子，例如 CPU、GPU、FPGA 等。
會話 (Session): 負責管理 ONNX 模型的生命週期，包括載入模型、最佳化模型、執行模型、釋放資源等。

使用方法

安裝 ONNX Runtime: 可以透過 pip 安裝 ONNX Runtime，例如：pip install onnxruntime (CPU 版本) 或 pip install onnxruntime-gpu (GPU 版本)。
載入 ONNX 模型: 使用 onnxruntime.InferenceSession 載入 ONNX 模型。
準備輸入資料: 將輸入資料轉換為 ONNX Runtime 可以接受的格式，例如 NumPy 陣列。
執行推論: 使用 InferenceSession.run() 方法執行推論，並獲取輸出結果。

示例代碼 (Python):

import onnxruntime
import numpy as np

# 載入 ONNX 模型
session = onnxruntime.InferenceSession("model.onnx")

# 獲取輸入和輸出資訊
input_name = session.get_inputs()[0].name
output_name = session.get_outputs()[0].name

# 準備輸入資料
input_data = np.random.randn(1, 3, 224, 224).astype(np.float32)

# 執行推論
output_data = session.run([output_name], {input_name: input_data})

# 列印輸出結果
print(output_data)

適用場景

圖像識別： 加速圖像分類、目標檢測、圖像分割等任務的推論。
自然語言處理： 加速文本分類、機器翻譯、文本生成等任務的推論。
語音識別： 加速語音識別、語音合成等任務的推論。
推薦系統： 加速推薦模型的推論，提高推薦效率。
其他機器學習任務： 可以加速各種機器學習任務的推論，例如迴歸、聚類等。

優勢

高效能： 透過各種最佳化技術，實現高效能的推論。
跨平台： 支援多種作業系統和硬體平台。
易於整合： 提供多種程式語言的 API。
靈活可擴展： 允許使用者自定義算子和執行提供程序。
活躍的社群： 擁有活躍的社群，可以獲取技術支援和交流經驗。

局限性

對 ONNX 模型格式的依賴： 只能執行 ONNX 格式的模型，需要將其他格式的模型轉換為 ONNX 格式。
某些算子的支援可能不完善： 對於一些特殊的算子，ONNX Runtime 的支援可能不完善，需要使用者自定義算子。
需要一定的配置和調優： 為了獲得最佳效能，可能需要對 ONNX Runtime 進行一定的配置和調優。

總結

ONNX Runtime 是一個強大的機器學習推論加速器，可以幫助使用者加速 ONNX 模型的推論過程，提高應用效能。它具有高效能、跨平台、易於整合、靈活可擴展等優點，適用於各種機器學習任務。

ONNX Runtime：跨平台、高效能的機器學習推論和訓練加速器。

ONNX Runtime (ORT)

簡介

主要特性

架構

使用方法

適用場景

優勢

局限性

總結

所有詳細資訊，請以官方網站公布為準 (https://github.com/microsoft/onnxruntime)