Delen via


Problemen met GPU-extensies voor GPU-VM's in Azure Stack Edge Pro GPU oplossen

VAN TOEPASSING OP:Ja voor Pro - GPU-SKU Azure Stack Edge Pro - GPUJa voor Pro 2 SKUAzure Stack Edge Pro 2Ja voor Pro R SKUAzure Stack Edge Pro R

Dit artikel bevat richtlijnen voor het oplossen van de meest voorkomende problemen die ervoor zorgen dat de installatie van de GPU-extensie op een GPU-VM op een Gpu-apparaat van Azure Stack Edge Pro mislukt.

Zie Gpu-extensie installeren voor installatiestappen.

In versies lager dan 2205 installeert de Linux GPU-extensie oude ondertekeningssleutels: handtekening en/of vereiste sleutel ontbreekt

Foutbeschrijving: De Linux GPU-extensie installeert oude ondertekeningssleutels, waardoor het downloaden van het vereiste GPU-stuurprogramma wordt voorkomen. In dit geval ziet u de volgende fout in de syslog van de Linux-VM:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Voorgestelde oplossingen: U hebt twee opties om dit probleem te verhelpen:

  • Optie 1: Pas de Azure Stack Edge 2205-updates toe op uw apparaat.

  • Optie 2: Nadat u een virtuele GPU-machine van grootte hebt gemaakt in NCasT4_v3-serie, installeert u handmatig de nieuwe ondertekeningssleutels voordat u de extensie installeert en stelt u de vereiste ondertekeningssleutels in met behulp van de stappen in het bijwerken van de CUDA Linux GPG-opslagplaatssleutel | NVIDIA Technical Blog.

    Hier volgt een voorbeeld van het installeren van ondertekeningssleutels op een virtuele Ubuntu 1804-machine:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Kan de GPU-extensie niet installeren op een Windows 2016-VHD

Foutbeschrijving: dit is een bekend probleem in versies lager dan 2205. Voor de GPU-extensie is TLS 1.2 vereist. In dit geval ziet u mogelijk het volgende foutbericht:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Aanvullende details:

  • Controleer het gastlogboek op de bijbehorende fout. Zie Gastlogboeken verzamelen voor VM's op een Azure Stack Edge Pro GPU-apparaat om de gastlogboeken te verzamelen.
  • Kijk in of /var/log/azure/nvidia-vmext-statusop /var/log/waagent.log een Virtuele Linux-machine.
  • Zoek op een Windows-VM de foutstatus in C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
  • Bekijk het volledige uitvoeringslogboek in C:\WindowsAzure\Logs\WaAppAgent.txt.

Als de installatie is mislukt tijdens het downloaden van het pakket, geeft deze fout aan dat de VM geen toegang heeft tot het openbare netwerk om het stuurprogramma te downloaden.

Voorgestelde oplossing: Gebruik de volgende stappen om TLS 1.2 in te schakelen op een Windows 2016-VM en implementeer vervolgens de GPU-extensie.

  1. Voer de volgende opdracht uit in de VIRTUELE machine om TLS 1.2 in te schakelen:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Implementeer de sjabloon addGPUextensiontoVM.json om de extensie op een bestaande VIRTUELE machine te installeren. U kunt de extensie handmatig installeren of u kunt de extensie installeren vanuit Azure Portal.

    Notitie

    De implementatie van de extensie is een langlopende taak en duurt ongeveer 10 minuten.

Het Nvidia-stuurprogramma handmatig installeren op RHEL 7

Beschrijving van de fout: bij het installeren van de GPU-extensie op een RHEL 7-VM kan de installatie mislukken vanwege een certificaatrotatieprobleem en een niet-compatibele stuurprogrammaversie.

Voorgestelde oplossing: In dit geval hebt u twee opties:

  • Optie 1: Los het certificaatrotatieprobleem op en installeer vervolgens een Nvidia-stuurprogramma lager dan versie 510.

    1. Voer de volgende opdracht uit om het probleem met certificaatrotatie op te lossen:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Installeer een Nvidia-stuurprogramma lager dan versie 510.

  • Optie 2: Implementeer de GPU-extensie. Gebruik de volgende instellingen bij het implementeren van de ARM-extensie:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

VM-grootte is geen GPU-VM-grootte

Foutbeschrijving: een GPU-VM moet Standard_NC4as_T4_v3 of Standard_NC8as_T4_v3 grootte hebben. Als er een andere VM-grootte wordt gebruikt, kan de GPU-extensie niet worden gekoppeld.

Voorgestelde oplossing: Maak een VIRTUELE machine met de Standard_NC4as_T4_v3 of Standard_NC8as_T4_v3 VM-grootte. Zie Ondersteunde VM-grootten voor GPU-VM's voor meer informatie. Zie GPU-VM's maken voor meer informatie over het opgeven van de grootte.

Besturingssysteem voor installatiekopieën wordt niet ondersteund

Beschrijving van de fout: de GPU-extensie biedt geen ondersteuning voor het besturingssysteem dat is geïnstalleerd op de VM-installatiekopieën.

Voorgestelde oplossing: Bereid een nieuwe VM-installatiekopieën voor die een besturingssysteem hebben dat door de GPU-extensie wordt ondersteund.

Extensieparameter is onjuist

Beschrijving van de fout: er zijn onjuiste extensie-instellingen gebruikt bij het implementeren van de GPU-extensie op een Linux-VM.

Voorgestelde oplossing: bewerk het parameterbestand voordat u de GPU-extensie implementeert. Zie Gpu-extensie installeren voor meer informatie.

De installatie van de VM-extensie is mislukt bij het downloaden van het pakket

Beschrijving van de fout: het inrichten van extensies is mislukt tijdens de installatie van de extensie of tijdens de status Inschakelen.

  1. Controleer het gastlogboek op de bijbehorende fout. Zie Gastlogboeken verzamelen voor VM's op een Azure Stack Edge Pro om de gastlogboeken te verzamelen.

    Op een Virtuele Linux-machine:

    • Kijk in /var/log/waagent.log of /var/log/azure/nvidia-vmext-status.

    Op een Virtuele Windows-machine:

    • Zoek de foutstatus in C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Bekijk het volledige uitvoeringslogboek: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Als de installatie is mislukt tijdens het downloaden van het pakket, geeft deze fout aan dat de VM geen toegang heeft tot het openbare netwerk om het stuurprogramma te downloaden.

Voorgestelde oplossing:

  1. Rekenkracht inschakelen op een poort die is verbonden met internet. Zie GPU-VM's maken voor hulp.

  2. Maak de toewijzing van de VIRTUELE machine ongedaan door de VIRTUELE machine in de portal te stoppen. Als u de virtuele machine wilt stoppen, gaat u naar Overzicht van virtuele machines>en selecteert u de virtuele machine. Selecteer Vervolgens op de eigenschappenpagina van de VM de optie Stoppen.

  3. Een nieuwe VM maakt.

VM-extensie is mislukt met fout dpkg is used/yum lock is used (Linux-VM)

Beschrijving van de fout: implementatie van GPU-extensies op een Linux-VM is mislukt omdat een ander proces dpkg of een ander proces een yum lock.

Voorgestelde oplossing: Ga als volgt te werk om het probleem op te lossen:

  1. Als u wilt achterhalen welk proces de vergrendeling toepast, zoekt u in het logboek \var\log\azure\nvidia-vmext-status voor een fout zoals 'dpkg wordt gebruikt door een ander proces' of 'Een andere app houdt yum lockvast'.

  2. Wacht tot het proces is voltooid of beëindig het proces.

  3. Installeer de GPU-extensie opnieuw.

  4. Als de implementatie van de extensie opnieuw mislukt, maakt u een nieuwe VM en controleert u of de vergrendeling niet aanwezig is voordat u de GPU-extensie installeert.

Volgende stappen

Gastlogboeken verzamelen en een ondersteuningspakket maken