Présentation

Effectué

NVIDIA Triton Inference Server est un logiciel open source multi-framework qui est optimisé pour l’inférence. Il prend en charge les frameworks de machine learning connus comme TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT et plus encore. NVIDIA Triton peut être utilisé pour traiter l’inférence pour les charges de travail CPU ou GPU. Dans ce module, vous allez déployer votre modèle de production sur le serveur NVIDIA Triton afin d’effectuer une inférence sur une machine virtuelle hébergée dans le cloud.

Prérequis

Scénario : Déployer un modèle de production sur NVIDIA Triton Server pour le traitement de l’inférence

Vous êtes un scientifique des données chargé d’améliorer l’automatisation d’une usine de fabrication à l’aide de la vision par ordinateur. Votre équipe a développé un modèle de détection d’objets basé sur ONNX (Open Neural Network Exchange) à l’aide d’Azure Machine Learning Studio, et est prête à mettre ce modèle en production. Le serveur d’Inférence NVIDIA Triton a été choisi comme processeur d’inférence en raison de sa capacité à exécuter le format ONNX sur du matériel basé sur le CPU ou le GPU. Votre équipe prévoit de cibler une machine virtuelle hébergée dans le cloud pour exécuter le modèle, ce qui vous permet d’effectuer une inférence sur les images reçues de l’environnement de production.

Qu’avez-vous appris ?

À l’issue de ce module, vous serez en mesure de :

  • Créer une machine virtuelle accélérée par le GPU NVIDIA.
  • Configurez le Serveur d’inférence NVIDIA Triton et les prérequis associés.
  • Exécuter une charge de travail d’inférence sur le serveur d’inférence NVIDIA Triton.

Quel est l’objectif principal ?

Ce module vous guide dans le déploiement d’un modèle de production vers le serveur d’Inférence NVIDIA Triton pour le traitement de l’inférence.