Utilisation de GPU sans serveur dans Azure Container Apps (aperçu)
Azure Container Apps permet d’accéder aux GPU à la demande sans que vous ayez à gérer l’infrastructure sous-jacente. En tant que fonctionnalité sans serveur, vous ne payez que pour les GPU utilisés. Lorsque cette option est activée, le nombre de GPU utilisés pour votre application augmente et diminue pour répondre aux exigences de charge de votre application. Les GPU sans serveur vous permettent d'exécuter vos charges de travail de manière transparente avec une mise à l'échelle automatique, un démarrage à froid optimisé, une facturation à la seconde avec une mise à l'échelle jusqu'à zéro lorsqu'il n'est pas utilisé et une charge opérationnelle réduite.
Les GPU sans serveur ne sont pris en charge que pour les profils de charge de travail de consommation. La fonctionnalité n'est pas prise en charge pour les environnements de consommation uniquement.
Remarque
L'accès aux GPU n'est disponible qu'après avoir demandé des quotas de GPU. Vous pouvez soumettre votre demande de quota GPU via un dossier de support client.
Avantages
Les GPU sans serveur accélèrent le développement de l'IA en vous permettant de vous concentrer sur votre code d'IA principal et moins sur la gestion de l'infrastructure lorsque vous utilisez des GPU. Cette fonctionnalité fournit une option de couche intermédiaire entre les API sans serveur du catalogue de modèles Azure AI et les modèles d’hébergement sur le calcul géré.
La prise en charge du GPU sans serveur Container Apps offre une gouvernance complète des données, car vos données ne quittent jamais les limites de votre conteneur tout en fournissant une plate-forme gérée et sans serveur à partir de laquelle créer vos applications.
Lorsque vous utilisez des GPU sans serveur dans des Azure Container Apps, vos applications bénéficient des avantages suivants :
GPU évolutifs vers zéro : Prise en charge de la mise à l'échelle automatique sans serveur des GPU NVIDIA A100 et NVIDIA T4.
Facturation à la seconde : Payez uniquement pour le calcul GPU que vous utilisez.
Gouvernance des données intégrée : Vos données ne quittent jamais la limite du conteneur.
Options de calcul flexibles : Vous pouvez choisir entre les types de GPU NVIDIA A100 ou T4.
Couche intermédiaire pour le développement de l'IA : Apportez votre propre modèle sur une plateforme de calcul gérée et sans serveur.
Scénarios courants
Les scénarios suivants, bien que non exhaustifs, décrivent des cas d’utilisation courants pour les GPU sans serveur.
Inférence en temps réel et par lots : Utilisation de modèles open source personnalisés avec des temps de démarrage rapides, une mise à l'échelle automatique et un modèle de facturation par seconde. Les GPU sans serveur sont idéaux pour les applications dynamiques. Vous ne payez que pour le calcul que vous utilisez, et vos applications s'adaptent automatiquement à la demande.
Scénarios d'apprentissage automatique : Accélérez considérablement les applications qui implémentent des modèles d’IA génératifs personnalisés affinés, l’apprentissage en profondeur, les réseaux neuronaux ou l’analyse de données à grande échelle.
Calcul haute performance (HPC) : Les applications qui nécessitent des calculs et des simulations complexes, telles que le calcul scientifique, la modélisation financière ou les prévisions météorologiques, utilisent les GPU comme ressources pour répondre aux exigences de calcul élevées.
Rendu et visualisation : Les applications impliquant le rendu 3D, le traitement d'images ou le transcodage vidéo utilisent souvent des GPU pour accélérer le processus de rendu et permettre la visualisation en temps réel.
Analyse des mégadonnées : Les GPU peuvent accélérer le traitement et l’analyse des données parmi des ensembles de données massifs.
À propos de l’installation
Gardez à l’esprit les éléments suivants lorsque vous utilisez des GPU sans serveur :
Version CUDA : Les GPU sans serveur prennent en charge la dernière version de CUDA
Limitations de support :
- Un seul conteneur dans une application peut utiliser le GPU à la fois.
- Plusieurs applications peuvent partager le même profil de charge de travail GPU, mais chacune nécessite sa propre réplique.
- Les répliques GPU multiples et fractionnaires ne sont pas prises en charge.
- Le premier conteneur de votre application a accès au GPU.
Adresses IP : Les GPU de consommation utilisent une adresse IP par réplique lorsque vous configurez l'intégration avec votre propre réseau virtuel.
Demandez un quota de GPU sans serveur
L'accès à cette fonctionnalité n'est disponible qu'après avoir obtenu un quota de GPU sans serveur. Vous pouvez soumettre votre demande de quota GPU via un dossier de support client. Lors de l’ouverture d’un cas de support pour une demande de quota GPU, sélectionnez le type de problème « Technique ».
Remarque
Les clients disposant de contrats d’entreprise disposent d’un seul quota de GPU T4 activé par défaut.
Régions prises en charge
Les GPU sans serveur sont disponibles en avant-première dans les régions Ouest des États-Unis 3 et Australie Est.
Utilisez des GPU sans serveur
Lorsque vous créez une application conteneur via le Portail Microsoft Azure, vous pouvez configurer votre conteneur pour utiliser les ressources GPU.
Dans l’onglet Conteneur du processus de création, définissez les paramètres suivants :
Dans la section Allocation des ressources du conteneur, cochez la case GPU.
Pour le type de GPU*, sélectionnez l’option NVIDIA A100 ou NVIDIA T4.
Gérez le profil de charge de travail du GPU sans serveur
Les GPU sans serveur fonctionnent sur des profils de charge de travail GPU de consommation. Vous gérez un profil de charge de travail GPU de consommation de la même manière que tout autre profil de charge de travail. Vous pouvez gérer votre profil de charge de travail à l’aide de CLI ou du Portail Microsoft Azure.
Améliorez le démarrage à froid du GPU
Vous pouvez améliorer le démarrage à froid sur vos conteneurs compatibles GPU en activant la diffusion d’artefacts sur votre registre Azure Container Registry.
Remarque
Pour utiliser le streaming d’artefacts, vos images de conteneur doivent être hébergées dans Azure Container Registry.
Suivez les étapes suivantes pour activer la diffusion d’images :
Ouvrez votre Azure Container Registry dans le Portail Microsoft Azure.
Recherchez des Référentiels et sélectionnez Référentiels.
Sélectionnez le nom de votre référentiel.
Dans la fenêtre Référentiel, sélectionnez Démarrer la diffusion des artefacts.
Sélectionnez la balise d’image que vous souhaitez diffuser.
Dans la fenêtre qui s’ouvre, sélectionnez Créer un artefact de streaming.
Envoyer le commentaire
Soumettez le problème au référentiel GitHub Azure Container Apps.