Déployer un modèle sur NVIDIA Triton Inference Server
NVIDIA Triton Inference Server est un logiciel open source multi-framework qui est optimisé pour l’inférence. Il prend en charge les infrastructures d’apprentissage automatique les plus courantes telles que TensorFlow, Open Neural Network Exchange (ONNX) Runtime, PyTorch, NVIDIA TensorRT, et bien d’autres encore. Il peut être utilisé pour vos charges de travail de processeur ou GPU. Dans ce module, vous allez déployer votre modèle de production sur le serveur NVIDIA Triton afin d’effectuer une inférence sur une machine virtuelle hébergée dans le cloud.
Objectifs d’apprentissage
Dans ce module, vous allez découvrir comment :
- Créer une machine virtuelle accélérée par le GPU NVIDIA.
- Configurez le Serveur d’inférence NVIDIA Triton et les prérequis associés.
- Exécuter une charge de travail d’inférence sur le serveur d’inférence NVIDIA Triton.