Introdução

Concluído

NVIDIA Triton Inference Server é um software multi-framework, de código aberto que é otimizado para inferência. Ele suporta estruturas populares de aprendizado de máquina como TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT e muito mais. O NVIDIA Triton pode ser usado para processar inferência para cargas de trabalho de CPU ou GPU. Neste módulo, você implanta seu modelo de produção no servidor NVIDIA Triton para executar inferência em uma máquina virtual hospedada na nuvem.

Pré-requisitos

Cenário: Implantar um modelo de produção no NVIDIA Triton Server para processamento de inferência

Você é um cientista de dados a quem é atribuída a tarefa de melhorar a automação em uma instalação de fabricação usando visão computacional. Sua equipe desenvolveu um modelo de deteção de objeto baseado no Open Neural Network Exchange (ONNX) usando o estúdio Azure Machine Learning e está pronta para colocar esse modelo em produção. NVIDIA Triton Inference Server é escolhido como o processador de inferência devido à sua capacidade de executar o formato ONNX em CPU ou hardware baseado em GPU. Sua equipe planeja direcionar uma máquina virtual hospedada na nuvem para executar o modelo, o que permite que você execute inferência em quadros de imagem recebidos do ambiente de produção.

O que você aprende?

Depois de concluir este módulo, você é capaz de:

  • Crie uma máquina virtual acelerada por GPU NVIDIA.
  • Configure o NVIDIA Triton Inference Server e os pré-requisitos relacionados.
  • Execute uma carga de trabalho de inferência no NVIDIA Triton Inference Server.

Qual é o principal objetivo?

Este módulo mostra como implantar um modelo de produção no NVIDIA Triton Inference Server para processamento de inferência.