Implantar modelo no NVIDIA Triton Inference Server
NVIDIA Triton Inference Server é um software multi-framework, de código aberto que é otimizado para inferência. Ele suporta estruturas populares de aprendizado de máquina como TensorFlow, Open Neural Network Exchange (ONNX) Runtime, PyTorch, NVIDIA TensorRT e muito mais. Ele pode ser usado para suas cargas de trabalho de CPU ou GPU. Neste módulo, você implanta seu modelo de produção no servidor NVIDIA Triton para executar inferência em uma máquina virtual hospedada na nuvem.
Objetivos de aprendizagem
Neste módulo, você aprenderá a:
- Crie uma máquina virtual acelerada por GPU NVIDIA.
- Configure o NVIDIA Triton Inference Server e os pré-requisitos relacionados.
- Execute uma carga de trabalho de inferência no NVIDIA Triton Inference Server.