Machine virtuelle du processeur graphique (GPU) sur Azure Stack Hub

Article
10/30/2024

Cet article décrit les modèles de processeurs graphiques (GPU) pris en charge sur un système intégré Azure Stack Hub. L’article contient également des instructions sur l’installation des pilotes utilisés avec les GPU. Le support GPU dans Azure Stack Hub permet de fournir des solutions telles que l’intelligence artificielle, l’entraînement, l’inférence et la visualisation des données. L’accélérateur graphique AMD Radeon Instinct Mi25 peut être utilisé pour prendre en charge des applications gourmandes en graphiques, telles qu’Autodesk AutoCAD.

Vous pouvez choisir parmi trois modèles de GPU. Ils sont disponibles dans les processeurs graphiques NVIDIA V100, NVIDIA T4 et AMD Mi25. Ces GPU physiques s’alignent sur les types de machines virtuelles de la série N Azure suivants, comme suit :

Avertissement

Les machines virtuelles GPU ne sont pas prises en charge dans cette mise en production. Vous devez effectuer une mise à niveau vers Azure Stack Hub 2005 ou version ultérieure. En outre, votre matériel Azure Stack Hub doit avoir des GPU physiques.

NCv3

Les machines virtuelles de série NCv3 sont optimisées par les GPU NVIDIA Tesla V100. Les clients peuvent tirer parti de ces GPU mis à jour pour les charges de travail HPC traditionnelles telles que la modélisation de gisements, le séquençage de l’ADN, l’analyse des protéines, les simulations de Monte-Carlo, etc.

Taille	Processeurs virtuels	Mémoire : Gio	Stockage temporaire (SSD) en Gio	GPU	Mémoire GPU : Gio	Disques de données max.	Nombre max de cartes réseau
Standard_NC6s_v3	6	112	736	1	16	12	4
Standard_NC12s_v3	12	224	1474	2	32	24	8
Standard_NC24s_v3	24	448	2948	4	64	32	8

NVv4

Les machines virtuelles de la série NVv4 sont alimentées par des GPU AMD Radeon Instinct MI25. Avec la série NVv4, Azure Stack Hub introduit des machines virtuelles avec des GPU partiels. Cette taille peut être utilisée pour les applications graphiques accélérées GPU et les bureaux virtuels. Actuellement, les machines virtuelles NVv4 prennent uniquement en charge le système d’exploitation invité Windows.

Taille	Processeurs virtuels	Mémoire : Gio	Stockage temporaire (SSD) en Gio	GPU	Mémoire GPU : Gio	Disques de données max.	Nombre max de cartes réseau
Standard_NV4as_v4	4	14	88	1/8	2	4	2
Standard_NV8as_v4	8	28	176	1/4	4	8	4
Standard_NV16as_v4	16	56	352	1/2	8	16	8
Standard_NV32as_v4	32	112	704	1	16	32	8

NCasT4_v3

Taille	Processeurs virtuels	Mémoire : Gio	GPU	Mémoire GPU : Gio	Disques de données max.	Nombre max de cartes réseau
Standard_NC4as_T4_v3	4	28	1	16	8	4
Standard_NC8as_T4_v3	8	56	1	16	16	8
Standard_NC16as_T4_v3	16	110	1	16	32	8
Standard_NC64as_T4_v3	64	440	4	64	32	8

NC_A100 v4

Les machines virtuelles de la série NC_A100 sont alimentées par les GPU NVIDIA Ampere A100, le successeur des GPU Tesla V100. Vous pouvez tirer parti de ces GPU mis à jour pour les charges de travail HPC traditionnelles telles que la modélisation des réservoirs, le séquencement d’ADN, l’analyse des protéines, les simulations Monte Carlo et d’autres.

Taille	Processeurs virtuels	Mémoire : Gio	Stockage temporaire (Gio)	Disques de données max.	GPU	Gio de mémoire GPU	Nombre max de cartes réseau
Standard_NC24ads_A100_v4	24	220	1123	12	1	80	2
Standard_NC48ads_A100_v4	48	440	2246	24	2	160	4

NC_L40S v4

Taille	Processeurs virtuels	Mémoire : Gio	Stockage temporaire (Gio)	Disques de données max.	GPU	Gio de mémoire GPU	Nombre max de cartes réseau
Standard_NC24ads_L40S_v4	24	220	1123	8	1	80	2
Standard_NC48ads_L40S_v4	48	440	2246	16	2	160	4

Considérations relatives au système de GPU

La référence (SKU) du GPU doit être l’une suivantes : AMD MI-25, NVIDIA V100 (et variantes), Nvidia T4.
Nombre de GPU par serveur pris en charge (1, 2, 3, 4). De préférence : 1, 2 et 4.
Tous les GPU dans l’unité d’échelle doivent avoir exactement la même référence (SKU).
Toutes les quantités de GPU par serveur dans toute l’unité d’échelle doivent être identiques.
La taille de partition du GPU (pour AMD Mi25) doit être la même dans toutes les machines virtuelles GPU sur l’unité d’échelle.

Planification de la capacité

Le planificateur de capacité Azure Stack Hub a été mis à jour pour prendre en charge les configurations GPU. C’est accessible ici.

Ajout de GPU sur un Azure Stack Hub existant

Azure Stack Hub prend désormais en charge l’ajout de GPU à tout système existant. Pour ajouter un GPU, exécutez stop-azurestack, exécutez la procédure de stop-azurestack, ajoutez des GPU, puis exécutez start-azurestack jusqu’à la fin. Si le système avait déjà des GPU, toutes les machines virtuelles GPU créées précédemment doivent être stop-deallocated puis redémarrées.

Correctif et mise à jour, comportement FRU des machines virtuelles

Les machines virtuelles GPU subissent un temps d’arrêt pendant les opérations telles que les correctifs et mises à jour (PnU) et le remplacement matériel (FRU) d’Azure Stack Hub. Le tableau suivant présente l’état de la machine virtuelle tel qu’il a été observé au cours de ces activités, et l’action manuelle que vous pouvez effectuer pour que ces machines virtuelles soient disponibles après cette opération.

Opération	PnU - mise à jour complète, mise à jour OEM	FRU
État de la machine virtuelle	Non disponible pendant la mise à jour. Peut être rendu disponible avec une opération manuelle. La machine virtuelle est automatiquement en ligne après la mise à jour.	Non disponible pendant le remplacement de matériel (FRU). Peut être rendu disponible avec une opération manuelle. La machine virtuelle doit être remise en service après le remplacement de matériel (FRU)
Opération manuelle	Si la machine virtuelle doit être disponible pendant la mise à jour et si des partitions GPU sont disponibles, la machine virtuelle peut être redémarrée à partir du portail en cliquant sur le bouton Redémarrer. La machine virtuelle est automatiquement sauvegardée après la mise à jour.	La machine virtuelle n’est pas disponible pendant le remplacement matériel (FRU). Si des GPU disponibles, la machine virtuelle peuvent être arrêtée-libérée et redémarrée pendant le remplacement matériel (FRU). Après l’achèvement fru, la machine virtuelle doit utiliser le bouton Arrêter, puis redémarrée à l’aide du bouton Démarrer.`stop-deallocated`

Installation du pilote invité

Les applets de commande PowerShell suivantes peuvent être utilisées pour l’installation du pilote :

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

Selon le système d’exploitation, le type et la connectivité de votre machine virtuelle GPU Azure Stack Hub, vous devez remplacer ces valeurs par les paramètres ci-dessous.

Mi25 AMD

La version du pilote invité doit correspondre à la version d’Azure Stack Hub, quel que soit l’état de connectivité. L’utilisation de versions plus récentes non alignées avec la version d’Azure Stack Hub peut entraîner des problèmes d’utilisation.

Version d’Azure Stack Hub	Pilote invité AMD
2206 et versions ultérieures	21.Q2-1, 20.Q4-1
2108	21.Q2-1, 20.Q4-1
2102	21.Q2-1, 20.Q4-1

Connecté

Utilisez le script PowerShell dans la section précédente avec le type de pilote approprié pour AMD. L’article Installer des pilotes GPU AMD sur des machines virtuelles de série N exécutant Windows fournit des instructions sur l’installation du pilote pour AMD Périphérique Instinct MI25 à l’intérieur de la machine virtuelle compatible GPU-P NVv4, ainsi que des étapes sur la façon de vérifier l’installation du pilote.

Déconnecté

Étant donné que l’extension extrait le pilote à partir d’un emplacement sur Internet, une machine virtuelle déconnectée du réseau externe ne peut pas y accéder. Vous pouvez télécharger le pilote à partir de la table précédente et le charger sur un compte de stockage de votre réseau local accessible à la machine virtuelle.

Ajoutez le pilote AMD à un compte de stockage et spécifiez l’URL de ce compte dans Settings. Ces paramètres doivent être utilisés dans l’applet de commande Set-AzureRMVMExtension . Par exemple :

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

Les pilotes NVIDIA doivent être installés à l’intérieur de la machine virtuelle pour les charges de travail CUDA ou GRID à l’aide du GPU.

Cas d’usage : GRID graphiques/de visualisation

Ce scénario requiert l’utilisation de pilotes GRID. Les pilotes GRID peuvent être téléchargés via le Hub d’applications NVIDIA, à condition que vous disposiez des licences requises. Les pilotes GRID requièrent également un serveur de licences GRID avec les licences GRID appropriées avant d’utiliser les pilotes GRID sur la machine virtuelle.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Cas d’usage : calcul/CUDA – Connecté

Les pilotes CUDA n’ont pas besoin d’un serveur de licences et n’ont pas besoin de paramètres modifiés.

Cas d’usage : calcul/CUDA – Déconnecté

Vous pouvez obtenir des liens vers les pilotes NVIDIA CUDA en suivant le lien suivant : https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows :

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux :

Vous devez référencer certaines URL pour vos paramètres :

URL	Notes
PUBKEY_URL	PUBKEY_URL est la clé publique pour le référentiel de pilotes Nvidia, pas pour la machine virtuelle Linux. Il est utilisé pour installer le pilote pour Ubuntu.
DRIVER_URL	DRIVER_URL est l’URL permettant de télécharger les informations du référentiel du pilote Nvidia et est ajoutée à la liste des dépôts de la machine virtuelle Linux.

Ajoutez les URL à vos paramètres.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Partager via