Implementación del modelo en el servidor de inferencia de NVIDIA Triton

Intermedio
Ingeniero de IA
Científico de datos
Azure
Azure Machine Learning

El servidor de inferencia de NVIDIA Triton es un software de código abierto de varios marcos que está optimizado para la inferencia. Admite marcos de aprendizaje automático populares como TensorFlow, Open Neural Network Exchange (ONNX) Runtime, PyTorch, NVIDIA TensorRT, etc. Se puede usar para las cargas de trabajo de CPU o GPU. En este módulo, implementará el modelo de producción en el servidor NVIDIA Triton para realizar la inferencia en una máquina virtual hospedada en la nube.

Objetivos de aprendizaje

En este módulo aprenderá a:

  • Cree una máquina virtual acelerada por la GPU de NVIDIA.
  • Configure el servidor de inferencia de NVIDIA Triton y requisitos previos relacionados.
  • Ejecute una carga de trabajo de inferencia en el servidor de inferencia de NVIDIA Triton.