microsoft/onnxruntime View GitHub Homepage for Latest Official Releases

ONNX Runtime: Um acelerador de inferência e treinamento de aprendizado de máquina de alto desempenho e multiplataforma.

MITC++onnxruntimemicrosoft 18.1k Last Updated: October 16, 2025

ONNX Runtime (ORT)

Introdução

ONNX Runtime (ORT) é um acelerador de inferência de aprendizado de máquina multiplataforma, projetado para acelerar o processo de inferência de modelos ONNX (Open Neural Network Exchange). Desenvolvido e de código aberto pela Microsoft, ele suporta diversas plataformas de hardware e sistemas operacionais, oferecendo capacidades de inferência de alto desempenho.

Objetivos Principais:

Acelerar a Inferência de Modelos ONNX: Aumentar a velocidade de inferência de modelos ONNX através da otimização do grafo de execução e da utilização de aceleração de hardware.
Suporte Multiplataforma: Suporte para sistemas operacionais como Windows, Linux, macOS, e diversas plataformas de hardware como CPU, GPU, FPGA, etc.
Fácil Integração: Fornece APIs em diversas linguagens de programação como C/C++, Python, Java, C#, facilitando a integração em diversas aplicações.
Alto Desempenho: Alcançar inferência de alto desempenho através de diversas técnicas de otimização, como otimização de grafos, fusão de operadores, otimização de memória, etc.
Escalabilidade: Permite que os usuários definam operadores e provedores de execução personalizados para suportar novas plataformas de hardware e algoritmos.

Principais Características

Suporte a Modelos ONNX: Suporte completo ao padrão ONNX, permitindo carregar e executar modelos que estejam em conformidade com as especificações ONNX.
Múltiplos Provedores de Execução (Execution Providers, EPs):
- CPU EP: Utiliza a CPU para inferência, suportando diversas otimizações de conjuntos de instruções da CPU (por exemplo, AVX2, AVX512).
- CUDA EP: Utiliza a GPU NVIDIA para inferência, aproveitando a aceleração CUDA.
- TensorRT EP: Utiliza NVIDIA TensorRT para inferência, otimizando ainda mais o desempenho da GPU.
- OpenVINO EP: Utiliza o kit de ferramentas Intel OpenVINO para inferência, otimizando o desempenho da CPU e GPU Intel.
- DirectML EP: Utiliza a API Windows DirectML para inferência, aproveitando os recursos de GPU no Windows.
- CoreML EP: Utiliza o framework Apple CoreML para inferência, otimizando o desempenho em dispositivos Apple.
- Outros EPs: Também suporta outras plataformas de hardware, como ARM NN, ACL, etc.
Otimização de Grafos: Otimiza automaticamente o grafo do modelo ONNX, como fusão de operadores, dobra de constantes, eliminação de nós, etc., reduzindo a quantidade de cálculos e o uso de memória.
Fusão de Operadores: Combina múltiplos operadores em um único operador, reduzindo a sobrecarga de comunicação entre os operadores.
Suporte à Quantização: Suporta a quantização de modelos, convertendo modelos de ponto flutuante em modelos inteiros, reduzindo o tamanho do modelo e a quantidade de cálculos, aumentando a velocidade de inferência.
Suporte a Formas Dinâmicas: Suporta modelos ONNX com formas dinâmicas, permitindo processar dados de entrada de diferentes tamanhos.
Opções de Sessão: Fornece uma variedade de opções de sessão, permitindo controlar vários aspectos do processo de inferência, como número de threads, alocação de memória, nível de otimização do grafo, etc.
Ferramentas de Depuração: Fornece ferramentas de depuração para ajudar os usuários a analisar os gargalos de desempenho dos modelos ONNX.
Análise de Desempenho: Fornece ferramentas de análise de desempenho para ajudar os usuários a entender as métricas de desempenho dos modelos ONNX, como tempo de inferência, uso de memória, etc.
Inferência Distribuída: Suporta inferência distribuída, permitindo implantar modelos ONNX em vários dispositivos para inferência, aumentando a taxa de transferência de inferência.

Arquitetura

A arquitetura do ONNX Runtime inclui principalmente as seguintes partes:

Frontend: Responsável por carregar o modelo ONNX e convertê-lo na representação interna do ONNX Runtime.
Otimizador de Grafos (Graph Optimizer): Responsável por otimizar o grafo do modelo ONNX, como fusão de operadores, dobra de constantes, etc.
Executor: Responsável por executar o grafo do modelo ONNX, alocando operadores para diferentes plataformas de hardware para execução, dependendo dos diferentes provedores de execução.
Provedor de Execução (Execution Provider): Responsável por executar operadores em uma plataforma de hardware específica, como CPU, GPU, FPGA, etc.
Sessão (Session): Responsável por gerenciar o ciclo de vida do modelo ONNX, incluindo carregar o modelo, otimizar o modelo, executar o modelo, liberar recursos, etc.

Como Usar

Instalar o ONNX Runtime: O ONNX Runtime pode ser instalado via pip, por exemplo: pip install onnxruntime (versão CPU) ou pip install onnxruntime-gpu (versão GPU).
Carregar o Modelo ONNX: Use onnxruntime.InferenceSession para carregar o modelo ONNX.
Preparar os Dados de Entrada: Converta os dados de entrada para um formato que o ONNX Runtime possa aceitar, como arrays NumPy.
Executar a Inferência: Use o método InferenceSession.run() para executar a inferência e obter os resultados de saída.

Código de Exemplo (Python):

import onnxruntime
import numpy as np

# Carregar o modelo ONNX
session = onnxruntime.InferenceSession("model.onnx")

# Obter informações de entrada e saída
input_name = session.get_inputs()[0].name
output_name = session.get_outputs()[0].name

# Preparar os dados de entrada
input_data = np.random.randn(1, 3, 224, 224).astype(np.float32)

# Executar a inferência
output_data = session.run([output_name], {input_name: input_data})

# Imprimir os resultados de saída
print(output_data)

Cenários de Aplicação

Reconhecimento de Imagem: Acelerar a inferência de tarefas como classificação de imagem, detecção de objetos, segmentação de imagem, etc.
Processamento de Linguagem Natural: Acelerar a inferência de tarefas como classificação de texto, tradução automática, geração de texto, etc.
Reconhecimento de Voz: Acelerar a inferência de tarefas como reconhecimento de voz, síntese de voz, etc.
Sistemas de Recomendação: Acelerar a inferência de modelos de recomendação, aumentando a eficiência da recomendação.
Outras Tarefas de Aprendizado de Máquina: Pode acelerar a inferência de várias tarefas de aprendizado de máquina, como regressão, agrupamento, etc.

Vantagens

Alto Desempenho: Alcançar inferência de alto desempenho através de diversas técnicas de otimização.
Multiplataforma: Suporte para diversos sistemas operacionais e plataformas de hardware.
Fácil Integração: Fornece APIs em diversas linguagens de programação.
Flexível e Escalável: Permite que os usuários definam operadores e provedores de execução personalizados.
Comunidade Ativa: Possui uma comunidade ativa, permitindo obter suporte técnico e trocar experiências.

Limitações

Dependência do Formato de Modelo ONNX: Só pode executar modelos no formato ONNX, exigindo que outros formatos de modelo sejam convertidos para o formato ONNX.
Suporte Potencialmente Incompleto para Alguns Operadores: Para alguns operadores especiais, o suporte do ONNX Runtime pode ser incompleto, exigindo que os usuários definam operadores personalizados.
Requer Alguma Configuração e Ajuste: Para obter o melhor desempenho, pode ser necessário configurar e ajustar o ONNX Runtime.

Conclusão

ONNX Runtime é um poderoso acelerador de inferência de aprendizado de máquina que pode ajudar os usuários a acelerar o processo de inferência de modelos ONNX, melhorando o desempenho das aplicações. Ele tem vantagens como alto desempenho, multiplataforma, fácil integração, flexibilidade e escalabilidade, e é adequado para várias tarefas de aprendizado de máquina.