Inleiding
NVIDIA Triton Inference Server is een opensource-software met meerdere frameworks die is geoptimaliseerd voor deductie. Het ondersteunt populaire machine learning-frameworks zoals TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT en meer. NVIDIA Triton kan worden gebruikt voor het verwerken van deductie voor CPU- of GPU-workloads. In deze module implementeert u uw productiemodel op NVIDIA Triton-server om deductie uit te voeren op een in de cloud gehoste virtuele machine.
Vereisten
Scenario: Een productiemodel implementeren in NVIDIA Triton Server voor deductieverwerking
U bent een data scientist die de taak krijgt om automatisering in een productiefaciliteit te verbeteren met behulp van computer vision. Uw team heeft een ONNX-model (Open Neural Network Exchange) ontwikkeld met behulp van Azure Machine Learning-studio en is klaar om dat model in productie te brengen. NVIDIA Triton Inference Server wordt gekozen als de deductieprocessor omdat deze de ONNX-indeling kan uitvoeren op hardware op basis van CPU of GPU. Uw team is van plan een in de cloud gehoste virtuele machine te richten om het model uit te voeren, zodat u deductie kunt uitvoeren op afbeeldingsframes die worden ontvangen van de productieomgeving.
Wat leer je?
Nadat u deze module hebt voltooid, kunt u het volgende doen:
- Maak een met NVIDIA GPU versnelde virtuele machine.
- Configureer NVIDIA Triton Inference Server en gerelateerde vereisten.
- Voer een deductieworkload uit op NVIDIA Triton Inference Server.
Wat is het belangrijkste doel?
In deze module ziet u hoe u een productiemodel implementeert in NVIDIA Triton Inference Server voor deductieverwerking.