Felsöka GPU-tilläggsproblem för virtuella GPU-datorer på Azure Stack Edge Pro GPU
GÄLLER FÖR: Azure Stack Edge Pro – GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Den här artikeln ger vägledning för att lösa de vanligaste problemen som gör att installationen av GPU-tillägget på en virtuell GPU-dator misslyckas på en Azure Stack Edge Pro GPU-enhet.
Installationssteg finns i Installera GPU-tillägget.
I versioner som är lägre än 2205 installerar Linux GPU-tillägget gamla signeringsnycklar: signatur och/eller nödvändig nyckel saknas
Felbeskrivning: Linux GPU-tillägget installerar gamla signeringsnycklar, vilket förhindrar nedladdning av den nödvändiga GPU-drivrutinen. I det här fallet visas följande fel i syslog för den virtuella Linux-datorn:
/var/log/syslog and /var/log/waagent.log
May 5 06:04:53 gpuvm12 kernel: [ 833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel
Föreslagna lösningar: Du har två alternativ för att åtgärda problemet:
Alternativ 1: Tillämpa Azure Stack Edge 2205-uppdateringarna på enheten.
Alternativ 2: När du har skapat en virtuell GPU-dator med storlek i NCasT4_v3-serien installerar du de nya signeringsnycklarna manuellt innan du installerar tillägget och anger sedan nödvändiga signeringsnycklar med hjälp av stegen i Uppdatera CUDA Linux GPG-lagringsnyckeln | NVIDIA Technical Blog.
Här är ett exempel som installerar signeringsnycklar på en virtuell Ubuntu 1804-dator:
$ sudo apt-key adv --fetch- keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
Det gick inte att installera GPU-tillägget på en virtuell hårddisk i Windows 2016
Felbeskrivning: Det här är ett känt problem i versioner som är lägre än 2205. GPU-tillägget kräver TLS 1.2. I det här fallet kan följande felmeddelande visas:
Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!
Ytterligare information:
- Kontrollera gästloggen för det associerade felet. Information om hur du samlar in gästloggarna finns i Samla in gästloggar för virtuella datorer på en Azure Stack Edge Pro GPU-enhet.
- På en virtuell Linux-dator tittar du i
/var/log/waagent.log
eller/var/log/azure/nvidia-vmext-status
. - På en virtuell Windows-dator hittar du felstatusen i
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Granska den fullständiga körningsloggen i
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Om installationen misslyckades under pakethämtningen anger det felet att den virtuella datorn inte kunde komma åt det offentliga nätverket för att ladda ned drivrutinen.
Föreslagen lösning: Använd följande steg för att aktivera TLS 1.2 på en virtuell Windows 2016-dator och distribuera sedan GPU-tillägget.
Kör följande kommando på den virtuella datorn för att aktivera TLS 1.2:
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
Distribuera mallen
addGPUextensiontoVM.json
för att installera tillägget på en befintlig virtuell dator. Du kan installera tillägget manuellt eller installera tillägget från Azure Portal.- Information om hur du installerar tillägget manuellt finns i Installera GPU-tillägget på virtuella datorer för din Azure Stack Edge Pro GPU-enhet
- Information om hur du installerar mallen med hjälp av Azure Portal finns i Distribuera virtuella GPU-datorer på din Azure Stack Edge Pro GPU-enhet.
Kommentar
Tilläggsdistributionen är ett tidskrävande jobb och tar cirka 10 minuter att slutföra.
Installera Nvidia-drivrutinen manuellt på RHEL 7
Felbeskrivning: När du installerar GPU-tillägget på en virtuell RHEL 7-dator kan installationen misslyckas på grund av ett certifikatrotationsproblem och en inkompatibel drivrutinsversion.
Föreslagen lösning: I det här fallet har du två alternativ:
Alternativ 1: Lös problemet med certifikatrotation och installera sedan en Nvidia-drivrutin som är lägre än version 510.
Lös problemet med certifikatrotation genom att köra följande kommando:
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
Installera en Nvidia-drivrutin som är lägre än version 510.
Alternativ 2: Distribuera GPU-tillägget. Använd följande inställningar när du distribuerar ARM-tillägget:
settings": { "isCustomInstall": true, "InstallMethod": 0, "DRIVER_URL": " https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", "DKMS_URL" : " https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", "LIS_URL": " https://aka.ms/lis", "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" }
VM-storleken är inte GPU VM-storlek
Felbeskrivning: En virtuell GPU-dator måste vara antingen Standard_NC4as_T4_v3 eller Standard_NC8as_T4_v3 storlek. Om någon annan VM-storlek används kan GPU-tillägget inte kopplas.
Föreslagen lösning: Skapa en virtuell dator med Standard_NC4as_T4_v3 eller Standard_NC8as_T4_v3 VM-storlek. Mer information finns i Vm-storlekar som stöds för virtuella GPU-datorer. Information om hur du anger storleken finns i Skapa virtuella GPU-datorer.
Avbildningsoperativsystem stöds inte
Felbeskrivning: GPU-tillägget stöder inte det operativsystem som är installerat på den virtuella datorns avbildning.
Föreslagen lösning: Förbereda en ny VM-avbildning som har ett operativsystem som GPU-tillägget stöder.
En lista över operativsystem som stöds finns i Operativsystem och GPU-drivrutiner som stöds för virtuella GPU-datorer.
Krav för avbildningsförberedelser för en virtuell GPU-dator finns i Skapa virtuella GPU-datorer.
Tilläggsparametern är felaktig
Felbeskrivning: Felaktiga tilläggsinställningar användes när GPU-tillägget distribuerades på en virtuell Linux-dator.
Föreslagen lösning: Redigera parameterfilen innan du distribuerar GPU-tillägget. Mer information finns i Installera GPU-tillägget.
Installationen av VM-tillägget misslyckades vid nedladdning av paketet
Felbeskrivning: Tilläggsetablering misslyckades under tilläggsinstallationen eller under aktiveringstillståndet.
Kontrollera gästloggen för det associerade felet. Information om hur du samlar in gästloggarna finns i Samla in gästloggar för virtuella datorer på en Azure Stack Edge Pro.
På en virtuell Linux-dator:
- Titta in
/var/log/waagent.log
eller/var/log/azure/nvidia-vmext-status
.
På en virtuell Windows-dator:
- Ta reda på felstatusen i
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Granska den fullständiga körningsloggen:
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Om installationen misslyckades under paketnedladdningen anger det felet att den virtuella datorn inte kunde komma åt det offentliga nätverket för att ladda ned drivrutinen.
- Titta in
Föreslagen lösning:
Aktivera beräkning på en port som är ansluten till Internet. Vägledning finns i Skapa virtuella GPU-datorer.
Frigör den virtuella datorn genom att stoppa den virtuella datorn i portalen. Om du vill stoppa den virtuella datorn går du till Översikt över virtuella datorer>och väljer den virtuella datorn. Välj sedan Stoppa på sidan egenskaper för den virtuella datorn.
Skapa en ny virtuell dator.
VM-tillägget misslyckades med fel dpkg is used/yum lock is used
(virtuell Linux-dator)
Felbeskrivning: GPU-tilläggsdistributionen på en virtuell Linux-dator misslyckades eftersom en annan process använde dpkg
eller en annan process har skapat en yum lock
.
Föreslagen lösning: Lös problemet genom att göra följande:
Om du vill ta reda på vilken process som tillämpar låset söker du i loggen \var\log\azure\nvidia-vmext-status efter ett fel som "dpkg används av en annan process" eller "En annan app håller "
yum lock
.Vänta antingen tills processen har slutförts eller avsluta processen.
Installera GPU-tillägget igen.
Om tilläggsdistributionen misslyckas igen skapar du en ny virtuell dator och kontrollerar att låset inte finns innan du installerar GPU-tillägget.