Résoudre les problèmes d’extension GPU des machines virtuelles GPU sur Azure Stack Edge Pro avec GPU
S’APPLIQUE À :Azure Stack Edge Pro – GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Cet article fournit des conseils permettant de résoudre les problèmes les plus courants qui se soldent par l’échec de l’installation de l’extension GPU sur une machine virtuelle GPU d’un appareil Azure Stack Edge Pro avec GPU.
Pour connaître les étapes d’installation, consultez Installer l’extension GPU.
Dans les versions antérieures à 2205, l’extension GPU Linux installe les anciennes clés de signature : signature et/ou clé requise manquante
Description de l’erreur : l’extension GPU Linux installe les anciennes clés de signature, empêchant le téléchargement du pilote GPU requis. Dans ce cas, vous verrez l’erreur suivante dans le syslog de la machine virtuelle Linux :
/var/log/syslog and /var/log/waagent.log
May 5 06:04:53 gpuvm12 kernel: [ 833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel
Solutions suggérées : vous avez deux options pour résoudre ce problème :
Option 1 : appliquez les mises à jour Azure Stack Edge 2205 à votre appareil.
Option 2 : après avoir créé une machine virtuelle GPU de taille dans la série NCasT4_v3, installez manuellement les nouvelles clés de signature avant d’installer l’extension, puis définissez les clés de signature requises à l’aide des étapes de Mise à jour de la clé de référentiel GPG CUDA Linux | Blog technique NVIDIA.
Voici un exemple d’installation des clés de signature sur une machine virtuelle Ubuntu 1804 :
$ sudo apt-key adv --fetch- keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
Échec de l’installation de l’extension GPU sur un disque dur virtuel Windows 2016
Description de l’erreur : il s’agit d’un problème connu dans les versions antérieures à 2205. L’extension GPU nécessite TLS 1.2. Dans ce cas, il peut vous arriver de voir le message d’erreur suivant :
Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!
Détails supplémentaires :
- Recherchez l’erreur associée dans le journal de l’invité. Pour collecter les journaux de l’invité, consultez Collecter les journaux de l’invité pour les machines virtuelles sur un appareil Azure Stack Edge Pro avec GPU.
- Sur une machine virtuelle Linux, cherchez dans
/var/log/waagent.log
ou/var/log/azure/nvidia-vmext-status
. - Sur une machine virtuelle Windows, recherchez l’état d’erreur dans
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Examinez le journal d’exécution complet dans
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Si l’installation a échoué lors du téléchargement du package, cette erreur indique que la machine virtuelle n’a pas pu accéder au réseau public pour télécharger le pilote.
Solution suggérée : procédez comme suit pour activer TLS 1.2 sur une machine virtuelle Windows 2016, puis déployer l’extension GPU.
Exécutez la commande suivante à l’intérieur de la machine virtuelle pour activer TLS 1.2 :
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
Déployez le modèle
addGPUextensiontoVM.json
pour installer l’extension sur une machine virtuelle existante. Vous pouvez installer l’extension manuellement ou l’installer à partir du portail Azure.- Pour installer l’extension manuellement, consultez Installer l’extension GPU sur des machines virtuelles pour votre appareil Azure Stack Edge Pro avec GPU.
- Pour installer le modèle à l’aide du portail Azure, consultez Déployer des machines virtuelles GPU sur votre appareil Azure Stack Edge Pro avec GPU.
Remarque
Le déploiement de l’extension est une opération durable qui prend environ 10 minutes.
Installer manuellement le pilote Nvidia sur RHEL 7
Description de l’erreur : lors de l’installation de l’extension GPU sur une machine virtuelle RHEL 7, l’installation peut échouer en raison d’un problème de rotation du certificat et d’une version de pilote incompatible.
Solution suggérée : dans ce cas, vous avez deux options :
Option 1 : résolvez le problème de rotation du certificat, puis installez un pilote Nvidia d’une version inférieure à 510.
Pour résoudre le problème de rotation du certificat, exécutez la commande suivante :
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
Installez un pilote Nvidia d’une version inférieure à 510.
Option 2 : déployez l’extension GPU. Utilisez les paramètres suivants lors du déploiement de l’extension ARM :
settings": { "isCustomInstall": true, "InstallMethod": 0, "DRIVER_URL": " https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", "DKMS_URL" : " https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", "LIS_URL": " https://aka.ms/lis", "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" }
La taille de la machine virtuelle n’est pas une taille de machine virtuelle GPU
Description de l’erreur : la taille d’une machine virtuelle GPU doit être Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3. Si une autre taille de machine virtuelle est utilisée, l’attachement de l’extension GPU échoue.
Solution suggérée : créez une machine virtuelle de la taille Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3. Pour plus d’informations, consultez Tailles de machine virtuelle prises en charge pour les machines virtuelles GPU. Pour plus d’informations sur la spécification de la taille, consultez Créer des machines virtuelles GPU.
Le système d’exploitation de l’image n’est pas pris en charge
Description de l’erreur : l’extension GPU ne prend pas en charge le système d’exploitation installé sur l’image de machine virtuelle.
Solution suggérée : préparez une nouvelle image de machine virtuelle dotée d’un système d’exploitation pris en charge par l’extension GPU.
Pour obtenir la liste des systèmes d’exploitation pris en charge, consultez Système d’exploitation et pilotes GPU pris en charge pour les machines virtuelles GPU.
Pour connaître les conditions requises de la préparation de l’image d’une machine virtuelle GPU, consultez Créer des machines virtuelles GPU.
Le paramètre de l’extension est incorrect
Description de l’erreur : des paramètres d’extension incorrects ont été utilisés lors du déploiement de l’extension GPU sur une machine virtuelle Linux.
Solution suggérée : modifiez le fichier de paramètres avant de déployer l’extension GPU. Pour plus d’informations, consultez Installer l’extension GPU.
Échec de l’installation de l’extension de machine virtuelle lors du téléchargement du package
Description de l’erreur : échec du provisionnement de l’extension lors de l’installation de l’extension ou pendant l’état d’activation.
Recherchez l’erreur associée dans le journal de l’invité. Pour collecter les journaux de l’invité, consultez Collecter les journaux de l’invité pour les machines virtuelles sur un appareil Azure Stack Edge Pro.
Sur une machine virtuelle Linux :
- Regardez dans
/var/log/waagent.log
ou/var/log/azure/nvidia-vmext-status
.
Sur une machine virtuelle Windows :
- Déterminez l’état d’erreur dans
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Examinez le journal d’exécution complet :
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Si l’installation a échoué lors du téléchargement du package, cette erreur indique que la machine virtuelle n’a pas pu accéder au réseau public pour télécharger le pilote.
- Regardez dans
Solution suggérée :
Activez le calcul sur un port connecté à Internet. Pour obtenir de l’aide, consultez Créer des machines virtuelles GPU.
Libérez la machine virtuelle en arrêtant la machine virtuelle dans le portail. Pour arrêter la machine virtuelle, accédez à Machines virtuelles>Vue d’ensemble, puis sélectionnez la machine virtuelle. Ensuite, dans la page Propriétés de la machine virtuelle, sélectionnez Arrêter.
Créez une machine virtuelle.
Échec de l’extension de machine virtuelle avec une erreur dpkg is used/yum lock is used
(machine virtuelle Linux)
Description de l’erreur : échec du déploiement de l’extension GPU sur une machine virtuelle Linux du fait qu’un autre processus a utilisé dpkg
ou qu’un autre processus a créé un yum lock
.
Solution suggérée : pour résoudre le problème, suivez ces étapes :
Pour savoir quel processus applique le verrou, recherchez dans le journal \var\log\azure\nvidia-vmext-status une erreur telle que « dpkg est utilisé par un autre processus » ou « Une autre application détient
yum lock
».Attendez que le processus se termine ou mettez fin au processus.
Installez l’extension GPU à nouveau.
Si le déploiement de l’extension échoue à nouveau, créez une machine virtuelle et assurez-vous que le verrou n’est pas présent avant d’installer l’extension GPU.
Étapes suivantes
Collecter les journaux de l’invité et créer un package de support