Installer l’extension GPU sur des machines virtuelles pour votre appareil Azure Stack Edge Pro avec GPU

Article
09/30/2024

S’APPLIQUE À : Yes for Pro - Référence SKU GPU Azure Stack Edge Pro – GPU Oui pour la référence SKU Pro 2 Azure Stack Edge Pro 2Azure Stack Edge Pro R

Cet article explique comment installer l’extension du pilote GPU pour installer les pilotes NVIDIA appropriés sur les machines virtuelles GPU s’exécutant sur votre appareil Azure Stack Edge. L’article couvre les étapes d’installation d’une extension GPU à l’aide de modèles Azure Resource Manager sur des machines virtuelles Windows et Linux.

Remarque

Dans le portail Azure, vous pouvez installer une extension GPU pendant la création de la machine virtuelle ou après son déploiement. Pour connaître les étapes et la configuration requise, consultez Déployer des machines virtuelles avec GPU.
Si vous exécutez un disque dur virtuel Windows 2016, vous devez activer TLS 1.2 à l’intérieur de la machine virtuelle avant d’installer l’extension GPU sur la versions 2205 et versions ultérieures. Pour une procédure détaillées, consultez Résoudre les problèmes d’extension GPU des machines virtuelles GPU sur Azure Stack Edge Pro avec GPU.

Prérequis

Avant d’installer l’extension GPU sur les machines virtuelles GPU exécutées sur votre appareil, assurez-vous que :

Vous avez accès à un appareil Azure Stack Edge sur lequel vous avez déployé une ou plusieurs machines virtuelles GPU. Sachez comment Déployer une machine virtuelle GPU sur votre appareil.
- Assurez-vous que le port activé pour le réseau de calcul sur votre appareil est connecté à Internet et qu’il y a accès. Les pilotes GPU sont téléchargés via l’accès à Internet.
  
  Dans l’exemple suivant, le port 2 était connecté à Internet et a été utilisé pour activer le réseau de calcul. Si Kubernetes n’est pas déployé sur votre environnement, vous pouvez ignorer l’IP du nœud Kubernetes et l’attribution de l’IP du service externe.
Téléchargez les fichiers de paramètres et les modèles d’extension GPU sur votre ordinateur client. Décompressez-les dans le répertoire qui vous sert de répertoire de travail.
Vérifiez que le client que vous allez utiliser pour accéder à votre appareil est toujours connecté à l’instance Azure Resource Manager sur Azure PowerShell. La connexion à Azure Resource Manager expire toutes les 1,5 heures ou si votre appareil Azure Stack Edge redémarre. Dans ce cas, toute cmdlet que vous exécutez retourne un message d’erreur indiquant que vous n’êtes plus connecté à Azure. Vous devez vous reconnecter. Pour obtenir des instructions détaillées, consultez Se connecter à Azure Resource Manager sur votre appareil Azure Stack Edge.

Modification du fichier de paramètres

Selon le système d’exploitation de votre machine virtuelle, vous pouvez installer l’extension GPU pour Windows ou pour Linux.

Windows
Linux

Pour déployer des pilotes GPU Nvidia pour une machine virtuelle existante, modifiez le fichier de paramètres addGPUExtWindowsVM.parameters.json, puis déployez le modèle addGPUextensiontoVM.json.

Versions 2205 et ultérieures

Le fichier addGPUExtWindowsVM.parameters.json prend les paramètres suivants :

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.5"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Versions antérieures à la version 2205

Le fichier addGPUExtWindowsVM.parameters.json prend les paramètres suivants :

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.3"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Pour déployer des pilotes GPU Nvidia pour une machine virtuelle Linux existante, modifiez le fichier de paramètres addGPUExtWindowsVM.parameters.json, puis déployez le modèle addGPUextensiontoVM.json.

Versions 2205 et ultérieures

Si vous utilisez Ubuntu ou Red Hat Enterprise Linux (RHEL), le fichier addGPUExtLinuxVM.parameters.json prend les paramètres suivants :

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: linuxGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverLinux"
	},
	"typeHandlerVersion": {
	"value": "1.8"
	},
	"settings": {
	}
	}
	}

Versions antérieures à la version 2205

Si vous utilisez Ubuntu ou Red Hat Enterprise Linux (RHEL), le fichier addGPUExtLinuxVM.parameters.json prend les paramètres suivants :

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: linuxGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverLinux"
	},
	"typeHandlerVersion": {
	"value": "1.3"
	},
	"settings": {
	}
	}
	}

Voici un exemple de fichier de paramètres Ubuntu utilisé dans cet article :

{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentParameters.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "vmName": {
            "value": "VM1"
        },
        "extensionName": {
            "value": "gpuLinux"
        },
        "publisher": {
            "value": "Microsoft.HpcCompute"
        },
        "type": {
            "value": "NvidiaGpuDriverLinux"
        },
        "typeHandlerVersion": {
            "value": "1.3"
        },
        "settings": {
        }
    }
}

Machines virtuelles GPU provenant d’images RHEL BYOS

Si vous avez créé votre machine virtuelle au moyen d’une image RHEL BYOS (Red Hat Enterprise Linux Bring Your Own Subscription), assurez-vous que :

Vous avez suivi les étapes de la section Utilisation de l’image RHEL BYOS.
Après avoir créé la machine virtuelle GPU, inscrivez-la et abonnez-la au portail client Red Hat. Si votre machine virtuelle n’est pas correctement inscrite, l’installation ne se poursuit pas, car la machine virtuelle n’est pas autorisée. Consultez S’inscrire et s’abonner automatiquement en une étape à l’aide du gestionnaire d’abonnements Red Hat. Cette étape permet au script d’installation de télécharger les packages appropriés pour le pilote GPU.
Vous installez le package vulkan-filesystem, car le script d’installation recherche un package vulkan-filesystem.

Déployez le modèle addGPUextensiontoVM.json pour installer l’extension sur une machine virtuelle existante.

Exécutez la commande suivante :

$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"

Remarque

Le déploiement de l’extension est une opération durable qui prend environ 10 minutes.

Voici un exemple de sortie :

PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"

DeploymentName          : deployment3
ResourceGroupName       : myasegpuvm1
ProvisioningState       : Succeeded
Timestamp               : 12/16/2020 12:18:50 AM
Mode                    : Incremental
TemplateLink            :
Parameters              :
                       Name             Type                       Value
                       ===============  =========================  ==========
                       vmName           String                     VM2
                       extensionName    String                     windowsgpuext
                       publisher        String                     Microsoft.HpcCompute
                       type             String                     NvidiaGpuDriverWindows
                       typeHandlerVersion  String                     1.3
                       settings         Object                     {
                         "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                         "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                         "DriverType": "CUDA"
                       }

Outputs                 :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>

Déployez le modèle addGPUextensiontoVM.json pour installer l’extension sur une machine virtuelle existante.

Exécutez la commande suivante :

$templateFile = "Path to addGPUextensiontoVM.json"
$templateParameterFile = "Path to addGPUExtLinuxVM.parameters.json"
$RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"

Remarque

Le déploiement de l’extension est une opération durable qui prend environ 10 minutes.

Voici un exemple de sortie :

Copyright (C) Microsoft Corporation. All rights reserved.
Try the new cross-platform PowerShell https://aka.ms/pscore6

PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtLinuxVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "rg2"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "delpoyment7"

DeploymentName          : delpoyment7
ResourceGroupName       : rg2
ProvisioningState       : Succeeded
Timestamp               : 12/10/2020 10:43:23 PM
Mode                    : Incremental
TemplateLink            :
Parameters              :
                          Name             Type                       Value
                          ===============  =========================  ==========
                          vmName           String                     VM1
                          extensionName    String                     gpuLinux
                          publisher        String                     Microsoft.HpcCompute
                          type             String                     NvidiaGpuDriverLinux
                          typeHandlerVersion  String                     1.3
                          settings         Object                     {
                            "DRIVER_URL": "https://go.microsoft.com/fwlink/?linkid=874271",
                            "PUBKEY_URL":
                          "http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub",
                            "CUDA_ver": "10.0.130",
                            "InstallCUDA": "true"
                          }

Outputs                 :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>

Suivre le déploiement

Windows
Linux

Pour suivre l’état du déploiement des extensions pour une machine virtuelle donnée, ouvrez une autre session PowerShell (exécuter en tant qu’administrateur), puis exécutez la commande suivante :

Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>

Voici un exemple de sortie :

PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext

ResourceGroupName       : myasegpuvm1
VMName                  : VM2
Name                    : windowsgpuext
Location                : dbelocal
Etag                    : null
Publisher               : Microsoft.HpcCompute
ExtensionType           : NvidiaGpuDriverWindows
TypeHandlerVersion      : 1.3
Id                      : /subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings          : {
                            "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                            "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                            "DriverType": "CUDA"
                          }
ProtectedSettings       :
ProvisioningState       : Creating
Statuses                :
SubStatuses             :
AutoUpgradeMinorVersion : True
ForceUpdateTag          :

PS C:\WINDOWS\system32>

La sortie de l’exécution de l’extension est enregistrée dans le fichier suivant. Reportez-vous à ce fichier C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status pour suivre l’état de l’installation.

Une installation réussie affiche un message avec Enable Extension et status de success.

"status":  {
                       "formattedMessage":  {
                                                "message":  "Enable Extension",
                                                "lang":  "en"
                                            },
                       "name":  "NvidiaGpuDriverWindows",
                       "status":  "success",

Get-AzureRmVMExtension -ResourceGroupName myResourceGroup -VMName <VM Name> -Name <Extension Name>

Voici un exemple de sortie :

Copyright (C) Microsoft Corporation. All rights reserved.
Try the new cross-platform PowerShell https://aka.ms/pscore6

PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName rg2 -VMName VM1 -Name gpulinux

ResourceGroupName       : rg2
VMName                  : VM1
Name                    : gpuLinux
Location                : dbelocal
Etag                    : null
Publisher               : Microsoft.HpcCompute
ExtensionType           : NvidiaGpuDriverLinux
TypeHandlerVersion      : 1.3
Id                      : /subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/rg2/providers/Microsoft.Compute/virtualMachines/VM1/extensions/gpuLinux
PublicSettings          : {
                            "DRIVER_URL": "https://go.microsoft.com/fwlink/?linkid=874271",
                            "PUBKEY_URL": "http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub",
                            "CUDA_ver": "10.0.130",
                            "InstallCUDA": "true"
                          }
ProtectedSettings       :
ProvisioningState       : Creating
Statuses                :
SubStatuses             :
AutoUpgradeMinorVersion : True
ForceUpdateTag          :

PS C:\WINDOWS\system32>

Remarque

À la fin du déploiement, l’élément ProvisioningState indique Succeeded.

La sortie de l’exécution de l’extension est enregistrée dans le fichier suivant : /var/log/azure/nvidia-vmext-status.

Vérification de l’installation du pilote

Windows
Linux

Connectez-vous à la machine virtuelle et exécutez l’utilitaire en ligne de commande nvidia-smi installé avec le pilote.

Versions 2205 et ultérieures

Le fichier nvidia-smi.exe se trouve à l’emplacement C:\Windows\System32\nvidia-smi.exe. Si vous ne voyez pas le fichier, il est possible que l’installation du pilote soit toujours en cours d’exécution en arrière-plan. Attendez 10 minutes, puis vérifiez à nouveau.

Versions antérieures à la version 2205

Le fichier nvidia-smi.exe se trouve à l’emplacement C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe. Si vous ne voyez pas le fichier, il est possible que l’installation du pilote soit toujours en cours d’exécution en arrière-plan. Attendez 10 minutes, puis vérifiez à nouveau.

Si le pilote est installé, le résultat obtenu ressemble à l’exemple suivant :

PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls

    Directory: C:\Program Files\NVIDIA Corporation\NVSMI

Mode                LastWriteTime         Length Name
----                -------------         ------ ----
-a----        2/26/2020  12:00 PM         849640 MCU.exe
-a----        2/26/2020  12:00 PM         443104 nvdebugdump.exe
-a----        2/25/2020   2:06 AM          81823 nvidia-smi.1.pdf
-a----        2/26/2020  12:01 PM         566880 nvidia-smi.exe
-a----        2/26/2020  12:01 PM         991344 nvml.dll

PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50       Driver Version: 442.50       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla T4            TCC  | 0000503C:00:00.0 Off |                    0 |
| N/A   35C    P8    11W /  70W |      8MiB / 15205MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>

Pour plus d’informations, consultez Extension du pilote GPU Nvidia pour Windows.

Remarque

Une fois que vous avez terminé l’installation du pilote et de l’extension du GPU, vous n’avez plus besoin d’utiliser un port avec accès Internet pour le calcul.

Pour vérifier l’installation du pilote, procédez comme suit :

Connectez-vous à la machine virtuelle GPU. Suivez les instructions indiquées dans Se connecter à une machine virtuelle Linux.

Voici un exemple de sortie :

PS C:\WINDOWS\system32> ssh -l Administrator 10.57.50.60
Administrator@10.57.50.60's password:
Welcome to Ubuntu 18.04.4 LTS (GNU/Linux 5.0.0-1031-azure x86_64)
 * Documentation:  https://help.ubuntu.com
 * Management:     https://landscape.canonical.com
 * Support:        https://ubuntu.com/advantage
  System information as of Thu Dec 10 22:57:01 UTC 2020

  System load:  0.0                Processes:           133
  Usage of /:   24.8% of 28.90GB   Users logged in:     0
  Memory usage: 2%                 IP address for eth0: 10.57.50.60
  Swap usage:   0%

249 packages can be updated.
140 updates are security updates.

Welcome to Ubuntu 18.04.4 LTS (GNU/Linux 5.0.0-1031-azure x86_64)
 * Documentation:  https://help.ubuntu.com
 * Management:     https://landscape.canonical.com
 * Support:        https://ubuntu.com/advantage
  System information as of Thu Dec 10 22:57:01 UTC 2020
  System load:  0.0                Processes:           133
  Usage of /:   24.8% of 28.90GB   Users logged in:     0
  Memory usage: 2%                 IP address for eth0: 10.57.50.60
  Swap usage:   0%

249 packages can be updated.
140 updates are security updates.

New release '20.04.1 LTS' available.
Run 'do-release-upgrade' to upgrade to it.

*** System restart required ***
Last login: Thu Dec 10 21:49:29 2020 from 10.90.24.23
To run a command as administrator (user "root"), use "sudo <command>".
See "man sudo_root" for details.

Administrator@VM1:~$

Exécutez l’utilitaire en ligne de commande nvidia-smi installé avec le pilote. Si le pilote est correctement installé, vous pouvez exécuter l’utilitaire et obtenir la sortie suivante :

Administrator@VM1:~$ nvidia-smi
Thu Dec 10 22:58:46 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 455.45.01    Driver Version: 455.45.01    CUDA Version: 11.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            Off  | 0000941F:00:00.0 Off |                    0 |
| N/A   48C    P0    27W /  70W |      0MiB / 15109MiB |      5%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
Administrator@VM1:~$

Pour plus d’informations, consultez Extension du pilote GPU Nvidia pour Linux.

Remarque

Une fois que vous avez terminé l’installation du pilote et de l’extension du GPU, vous n’avez plus besoin d’utiliser un port avec accès Internet pour le calcul.

Supprimer l’extension GPU

Pour supprimer l’extension GPU, utilisez la commande suivante :

Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>

Voici un exemple de sortie :

PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
          True                OK         OK

Étapes suivantes

Découvrez comment :

Partager via

Installer l’extension GPU sur des machines virtuelles pour votre appareil Azure Stack Edge Pro avec GPU

Prérequis

Modification du fichier de paramètres

Versions 2205 et ultérieures

Versions antérieures à la version 2205

Versions 2205 et ultérieures

Versions antérieures à la version 2205

Machines virtuelles GPU provenant d’images RHEL BYOS

Déployer un modèle

Suivre le déploiement

Vérification de l’installation du pilote

Versions 2205 et ultérieures

Versions antérieures à la version 2205

Supprimer l’extension GPU

Étapes suivantes

Commentaires

Ressources supplémentaires