Introdução
O Servidor de Inferência NVIDIA Triton é um software de código aberto de várias estruturas que é otimizado para inferência. Ele dá suporte a estruturas populares de aprendizado de máquina, como TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT e muito mais. O NVIDIA Triton pode ser usado para processar a inferência de cargas de trabalho de CPU ou GPU. Nesse módulo, você implanta seu modelo de produção no servidor NVIDIA Triton para realizar inferência em uma máquina virtual hospedada na nuvem.
Pré-requisitos
Cenário: implantar um modelo de produção no Servidor NVIDIA Triton para processamento de inferência
Você é um cientista de dados que recebeu a tarefa de melhorar a automação em uma unidade de fabricação usando visão computacional. Sua equipe desenvolveu um modelo de detecção de objetos baseado no Open Neural Network Exchange (ONNX) usando o Azure Machine Learning Studio e está pronta para colocar esse modelo em produção. O NVIDIA Triton Inference Server foi escolhido como processador de inferência devido à sua capacidade de executar o formato ONNX em hardware baseado em CPU ou GPU. Sua equipe planeja usar uma máquina virtual hospedada na nuvem para executar o modelo, o que permite realizar inferências em quadros de imagem recebidos do ambiente de produção.
O que você aprende?
Depois de concluir este módulo, você será capaz de:
- Crie uma máquina virtual acelerada por GPU NVIDIA.
- Configure o Servidor de inferência NVIDIA Triton e os pré-requisitos relacionados.
- Execute uma carga de trabalho de inferência no NVIDIA Triton Inference Server.
Qual é a meta principal?
Esse módulo mostra como implantar um modelo de produção no NVIDIA Triton Inference Server para processamento de inferência.