microsoft/onnxruntime View GitHub Homepage for Latest Official Releases

ONNX Runtime: 크로스 플랫폼, 고성능 머신러닝 추론 및 훈련 가속기입니다.

MITC++onnxruntimemicrosoft 18.1k Last Updated: October 16, 2025

ONNX Runtime (ORT)

소개

ONNX Runtime (ORT)는 ONNX (Open Neural Network Exchange) 모델의 추론 과정을 가속화하기 위해 설계된 크로스 플랫폼 머신러닝 추론 가속기입니다. 마이크로소프트에서 개발하고 오픈 소스로 제공되며, 다양한 하드웨어 플랫폼과 운영체제를 지원하고 고성능 추론 기능을 제공합니다.

핵심 목표:

ONNX 모델 추론 가속화: 실행 그래프 최적화, 하드웨어 가속 활용 등의 방법을 통해 ONNX 모델의 추론 속도를 향상시킵니다.
크로스 플랫폼 지원: Windows, Linux, macOS 등 운영체제와 CPU, GPU, FPGA 등 다양한 하드웨어 플랫폼을 지원합니다.
쉬운 통합: C/C++, Python, Java, C# 등 다양한 프로그래밍 언어의 API를 제공하여 다양한 애플리케이션에 쉽게 통합할 수 있습니다.
고성능: 그래프 최적화, 연산자 융합, 메모리 최적화 등 다양한 최적화 기술을 통해 고성능 추론을 구현합니다.
확장성: 사용자가 사용자 정의 연산자와 실행 제공자를 정의하여 새로운 하드웨어 플랫폼과 알고리즘을 지원할 수 있습니다.

주요 특징

ONNX 모델 지원: ONNX 표준을 완벽하게 지원하며, ONNX 규격에 맞는 모델을 로드하고 실행할 수 있습니다.
다양한 실행 제공자 (Execution Providers, EPs):
- CPU EP: CPU를 사용하여 추론하며, 다양한 CPU 명령어 세트 최적화 (예: AVX2, AVX512)를 지원합니다.
- CUDA EP: NVIDIA GPU를 사용하여 추론하며, CUDA를 통해 가속합니다.
- TensorRT EP: NVIDIA TensorRT를 사용하여 추론하며, GPU 성능을 더욱 최적화합니다.
- OpenVINO EP: Intel OpenVINO 툴킷을 사용하여 추론하며, Intel CPU 및 GPU 성능을 최적화합니다.
- DirectML EP: Windows DirectML API를 사용하여 추론하며, Windows의 GPU 리소스를 활용합니다.
- CoreML EP: Apple CoreML 프레임워크를 사용하여 추론하며, Apple 장치의 성능을 최적화합니다.
- 기타 EP: ARM NN, ACL 등 다른 하드웨어 플랫폼도 지원합니다.
그래프 최적화: ONNX 모델 그래프를 자동으로 최적화합니다. 예를 들어, 연산자 융합, 상수 폴딩, 노드 제거 등을 통해 계산량과 메모리 사용량을 줄입니다.
연산자 융합: 여러 연산자를 하나의 연산자로 병합하여 연산자 간의 통신 오버헤드를 줄입니다.
양자화 지원: 모델 양자화를 지원하여 부동 소수점 모델을 정수 모델로 변환하여 모델 크기와 계산량을 줄이고 추론 속도를 향상시킵니다.
동적 형상 지원: 동적 형상을 가진 ONNX 모델을 지원하여 다양한 크기의 입력 데이터를 처리할 수 있습니다.
세션 옵션: 풍부한 세션 옵션을 제공하여 스레드 수, 메모리 할당, 그래프 최적화 수준 등 추론 과정의 다양한 측면을 제어할 수 있습니다.
디버깅 도구: 디버깅 도구를 제공하여 사용자가 ONNX 모델의 성능 병목 현상을 분석하는 데 도움을 줍니다.
성능 분석: 성능 분석 도구를 제공하여 사용자가 추론 시간, 메모리 사용량 등 ONNX 모델의 성능 지표를 파악하는 데 도움을 줍니다.
분산 추론: 분산 추론을 지원하여 ONNX 모델을 여러 장치에 배포하여 추론하고 추론 처리량을 향상시킬 수 있습니다.

아키텍처

ONNX Runtime의 아키텍처는 주로 다음과 같은 부분으로 구성됩니다.

프론트엔드 (Frontend): ONNX 모델을 로드하고 ONNX Runtime 내부 표현 형식으로 변환합니다.
그래프 최적화기 (Graph Optimizer): ONNX 모델 그래프를 최적화합니다. 예를 들어, 연산자 융합, 상수 폴딩 등이 있습니다.
실행기 (Executor): ONNX 모델 그래프를 실행합니다. 다양한 실행 제공자에 따라 연산자를 다른 하드웨어 플랫폼에 할당하여 실행합니다.
실행 제공자 (Execution Provider): 특정 하드웨어 플랫폼 (예: CPU, GPU, FPGA 등)에서 연산자를 실행합니다.
세션 (Session): ONNX 모델의 수명 주기를 관리합니다. 모델 로드, 모델 최적화, 모델 실행, 리소스 해제 등을 포함합니다.

사용 방법

ONNX Runtime 설치: pip를 통해 ONNX Runtime을 설치할 수 있습니다. 예: pip install onnxruntime (CPU 버전) 또는 pip install onnxruntime-gpu (GPU 버전).
ONNX 모델 로드: onnxruntime.InferenceSession을 사용하여 ONNX 모델을 로드합니다.
입력 데이터 준비: 입력 데이터를 ONNX Runtime이 허용하는 형식 (예: NumPy 배열)으로 변환합니다.
추론 실행: InferenceSession.run() 메서드를 사용하여 추론을 실행하고 출력 결과를 가져옵니다.

예제 코드 (Python):

import onnxruntime
import numpy as np

# ONNX 모델 로드
session = onnxruntime.InferenceSession("model.onnx")

# 입력 및 출력 정보 가져오기
input_name = session.get_inputs()[0].name
output_name = session.get_outputs()[0].name

# 입력 데이터 준비
input_data = np.random.randn(1, 3, 224, 224).astype(np.float32)

# 추론 실행
output_data = session.run([output_name], {input_name: input_data})

# 출력 결과 출력
print(output_data)

적용 분야

이미지 인식: 이미지 분류, 객체 감지, 이미지 분할 등 작업의 추론을 가속화합니다.
자연어 처리: 텍스트 분류, 기계 번역, 텍스트 생성 등 작업의 추론을 가속화합니다.
음성 인식: 음성 인식, 음성 합성 등 작업의 추론을 가속화합니다.
추천 시스템: 추천 모델의 추론을 가속화하여 추천 효율성을 높입니다.
기타 머신러닝 작업: 회귀, 군집화 등 다양한 머신러닝 작업의 추론을 가속화할 수 있습니다.

장점

고성능: 다양한 최적화 기술을 통해 고성능 추론을 구현합니다.
크로스 플랫폼: 다양한 운영체제와 하드웨어 플랫폼을 지원합니다.
쉬운 통합: 다양한 프로그래밍 언어의 API를 제공합니다.
유연하고 확장 가능: 사용자가 사용자 정의 연산자와 실행 제공자를 정의할 수 있습니다.
활발한 커뮤니티: 활발한 커뮤니티를 통해 기술 지원을 받고 경험을 교환할 수 있습니다.

한계

ONNX 모델 형식에 대한 의존성: ONNX 형식의 모델만 실행할 수 있으며, 다른 형식의 모델을 ONNX 형식으로 변환해야 합니다.
일부 연산자 지원 미흡: 일부 특수한 연산자의 경우 ONNX Runtime의 지원이 미흡할 수 있으며, 사용자가 사용자 정의 연산자를 정의해야 합니다.
일정 수준의 구성 및 튜닝 필요: 최적의 성능을 얻으려면 ONNX Runtime을 일정 수준으로 구성하고 튜닝해야 할 수 있습니다.

요약

ONNX Runtime은 강력한 머신러닝 추론 가속기로, 사용자가 ONNX 모델의 추론 과정을 가속화하고 애플리케이션 성능을 향상시키는 데 도움을 줄 수 있습니다. 고성능, 크로스 플랫폼, 쉬운 통합, 유연하고 확장 가능한 등의 장점을 가지고 있으며, 다양한 머신러닝 작업에 적합합니다.