Dela via


Felsöka GPU-tilläggsproblem för virtuella GPU-datorer på Azure Stack Edge Pro GPU

GÄLLER FÖR:Ja för Pro – GPU SKU Azure Stack Edge Pro – GPUJa för Pro 2 SKUAzure Stack Edge Pro 2Ja för Pro R SKUAzure Stack Edge Pro R

Den här artikeln ger vägledning för att lösa de vanligaste problemen som gör att installationen av GPU-tillägget på en virtuell GPU-dator misslyckas på en Azure Stack Edge Pro GPU-enhet.

Installationssteg finns i Installera GPU-tillägget.

I versioner som är lägre än 2205 installerar Linux GPU-tillägget gamla signeringsnycklar: signatur och/eller nödvändig nyckel saknas

Felbeskrivning: Linux GPU-tillägget installerar gamla signeringsnycklar, vilket förhindrar nedladdning av den nödvändiga GPU-drivrutinen. I det här fallet visas följande fel i syslog för den virtuella Linux-datorn:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Föreslagna lösningar: Du har två alternativ för att åtgärda problemet:

  • Alternativ 1: Tillämpa Azure Stack Edge 2205-uppdateringarna på enheten.

  • Alternativ 2: När du har skapat en virtuell GPU-dator med storlek i NCasT4_v3-serien installerar du de nya signeringsnycklarna manuellt innan du installerar tillägget och anger sedan nödvändiga signeringsnycklar med hjälp av stegen i Uppdatera CUDA Linux GPG-lagringsnyckeln | NVIDIA Technical Blog.

    Här är ett exempel som installerar signeringsnycklar på en virtuell Ubuntu 1804-dator:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Det gick inte att installera GPU-tillägget på en virtuell hårddisk i Windows 2016

Felbeskrivning: Det här är ett känt problem i versioner som är lägre än 2205. GPU-tillägget kräver TLS 1.2. I det här fallet kan följande felmeddelande visas:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Ytterligare information:

  • Kontrollera gästloggen för det associerade felet. Information om hur du samlar in gästloggarna finns i Samla in gästloggar för virtuella datorer på en Azure Stack Edge Pro GPU-enhet.
  • På en virtuell Linux-dator tittar du i /var/log/waagent.log eller /var/log/azure/nvidia-vmext-status.
  • På en virtuell Windows-dator hittar du felstatusen i C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
  • Granska den fullständiga körningsloggen i C:\WindowsAzure\Logs\WaAppAgent.txt.

Om installationen misslyckades under pakethämtningen anger det felet att den virtuella datorn inte kunde komma åt det offentliga nätverket för att ladda ned drivrutinen.

Föreslagen lösning: Använd följande steg för att aktivera TLS 1.2 på en virtuell Windows 2016-dator och distribuera sedan GPU-tillägget.

  1. Kör följande kommando på den virtuella datorn för att aktivera TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Distribuera mallen addGPUextensiontoVM.json för att installera tillägget på en befintlig virtuell dator. Du kan installera tillägget manuellt eller installera tillägget från Azure Portal.

    Kommentar

    Tilläggsdistributionen är ett tidskrävande jobb och tar cirka 10 minuter att slutföra.

Installera Nvidia-drivrutinen manuellt på RHEL 7

Felbeskrivning: När du installerar GPU-tillägget på en virtuell RHEL 7-dator kan installationen misslyckas på grund av ett certifikatrotationsproblem och en inkompatibel drivrutinsversion.

Föreslagen lösning: I det här fallet har du två alternativ:

  • Alternativ 1: Lös problemet med certifikatrotation och installera sedan en Nvidia-drivrutin som är lägre än version 510.

    1. Lös problemet med certifikatrotation genom att köra följande kommando:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Installera en Nvidia-drivrutin som är lägre än version 510.

  • Alternativ 2: Distribuera GPU-tillägget. Använd följande inställningar när du distribuerar ARM-tillägget:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

VM-storleken är inte GPU VM-storlek

Felbeskrivning: En virtuell GPU-dator måste vara antingen Standard_NC4as_T4_v3 eller Standard_NC8as_T4_v3 storlek. Om någon annan VM-storlek används kan GPU-tillägget inte kopplas.

Föreslagen lösning: Skapa en virtuell dator med Standard_NC4as_T4_v3 eller Standard_NC8as_T4_v3 VM-storlek. Mer information finns i Vm-storlekar som stöds för virtuella GPU-datorer. Information om hur du anger storleken finns i Skapa virtuella GPU-datorer.

Avbildningsoperativsystem stöds inte

Felbeskrivning: GPU-tillägget stöder inte det operativsystem som är installerat på den virtuella datorns avbildning.

Föreslagen lösning: Förbereda en ny VM-avbildning som har ett operativsystem som GPU-tillägget stöder.

Tilläggsparametern är felaktig

Felbeskrivning: Felaktiga tilläggsinställningar användes när GPU-tillägget distribuerades på en virtuell Linux-dator.

Föreslagen lösning: Redigera parameterfilen innan du distribuerar GPU-tillägget. Mer information finns i Installera GPU-tillägget.

Installationen av VM-tillägget misslyckades vid nedladdning av paketet

Felbeskrivning: Tilläggsetablering misslyckades under tilläggsinstallationen eller under aktiveringstillståndet.

  1. Kontrollera gästloggen för det associerade felet. Information om hur du samlar in gästloggarna finns i Samla in gästloggar för virtuella datorer på en Azure Stack Edge Pro.

    På en virtuell Linux-dator:

    • Titta in /var/log/waagent.log eller /var/log/azure/nvidia-vmext-status.

    På en virtuell Windows-dator:

    • Ta reda på felstatusen i C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Granska den fullständiga körningsloggen: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Om installationen misslyckades under paketnedladdningen anger det felet att den virtuella datorn inte kunde komma åt det offentliga nätverket för att ladda ned drivrutinen.

Föreslagen lösning:

  1. Aktivera beräkning på en port som är ansluten till Internet. Vägledning finns i Skapa virtuella GPU-datorer.

  2. Frigör den virtuella datorn genom att stoppa den virtuella datorn i portalen. Om du vill stoppa den virtuella datorn går du till Översikt över virtuella datorer>och väljer den virtuella datorn. Välj sedan Stoppa på sidan egenskaper för den virtuella datorn.

  3. Skapa en ny virtuell dator.

VM-tillägget misslyckades med fel dpkg is used/yum lock is used (virtuell Linux-dator)

Felbeskrivning: GPU-tilläggsdistributionen på en virtuell Linux-dator misslyckades eftersom en annan process använde dpkg eller en annan process har skapat en yum lock.

Föreslagen lösning: Lös problemet genom att göra följande:

  1. Om du vill ta reda på vilken process som tillämpar låset söker du i loggen \var\log\azure\nvidia-vmext-status efter ett fel som "dpkg används av en annan process" eller "En annan app håller " yum lock.

  2. Vänta antingen tills processen har slutförts eller avsluta processen.

  3. Installera GPU-tillägget igen.

  4. Om tilläggsdistributionen misslyckas igen skapar du en ny virtuell dator och kontrollerar att låset inte finns innan du installerar GPU-tillägget.

Nästa steg

Samla in gästloggar och skapa ett supportpaket