Implementación del modelo en el servidor de inferencia de NVIDIA Triton
El servidor de inferencia de NVIDIA Triton es un software de código abierto de varios marcos que está optimizado para la inferencia. Admite marcos de aprendizaje automático populares como TensorFlow, Open Neural Network Exchange (ONNX) Runtime, PyTorch, NVIDIA TensorRT, etc. Se puede usar para las cargas de trabajo de CPU o GPU. En este módulo, implementará el modelo de producción en el servidor NVIDIA Triton para realizar la inferencia en una máquina virtual hospedada en la nube.
Objetivos de aprendizaje
En este módulo aprenderá a:
- Cree una máquina virtual acelerada por la GPU de NVIDIA.
- Configure el servidor de inferencia de NVIDIA Triton y requisitos previos relacionados.
- Ejecute una carga de trabajo de inferencia en el servidor de inferencia de NVIDIA Triton.