Introducción

Completado

El servidor de inferencia de NVIDIA Triton es un software de código abierto de varios marcos que está optimizado para la inferencia. Admite marcos de aprendizaje automático populares como TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT, etc. NVIDIA Triton se puede usar para procesar la inferencia para cargas de trabajo de CPU o GPU. En este módulo, implementará el modelo de producción en el servidor NVIDIA Triton para realizar la inferencia en una máquina virtual hospedada en la nube.

Requisitos previos

Escenario: implementación de un modelo de producción en el servidor NVIDIA Triton para el procesamiento de inferencia

Es un científico de datos al que se le asigna la tarea de mejorar la automatización en una instalación de fabricación mediante Computer Vision. El equipo desarrolló un modelo de detección de objetos basado en Open Neural Network Exchange (ONNX) mediante Estudio de Azure Machine Learning y está listo para poner ese modelo en producción. El servidor de inferencia de NVIDIA Triton se elige como el procesador de inferencia debido a la capacidad de ejecutar el formato ONNX en hardware basado en CPU o GPU. El equipo tiene como destino una máquina virtual hospedada en la nube para ejecutar el modelo, lo que le permite hacer inferencias en fotogramas de imagen recibidos del entorno de producción.

¿Qué aprenderá?

Al finalizar este módulo, podrá hacer lo siguiente:

  • Cree una máquina virtual acelerada por la GPU de NVIDIA.
  • Configure el servidor de inferencia de NVIDIA Triton y requisitos previos relacionados.
  • Ejecute una carga de trabajo de inferencia en el servidor de inferencia de NVIDIA Triton.

¿Cuál es el objetivo principal?

En este módulo se muestra cómo implementar un modelo de producción en el servidor de inferencia NVIDIA Triton para el procesamiento de inferencia.