Implantar um modelo no Servidor de Inferência NVIDIA Triton
O Servidor de Inferência NVIDIA Triton é um software de código aberto de várias estruturas que é otimizado para inferência. Ele dá suporte a estruturas populares de machine learning como TensorFlow, Open Neural Network Exchange (ONNX) Runtime, PyTorch, NVIDIA TensorRT e muito mais. Ele pode ser usado nas cargas de trabalho de CPU ou GPU. Nesse módulo, você implanta seu modelo de produção no servidor NVIDIA Triton para realizar inferência em uma máquina virtual hospedada na nuvem.
Objetivos de aprendizagem
Neste módulo, você saberá como:
- Crie uma máquina virtual acelerada por GPU NVIDIA.
- Configure o Servidor de inferência NVIDIA Triton e os pré-requisitos relacionados.
- Execute uma carga de trabalho de inferência no Servidor de inferência NVIDIA Triton.