Řešení potíží s rozšířením GPU pro virtuální počítače GPU ve službě Azure Stack Edge Pro GPU
PLATÍ PRO: Azure Stack Edge Pro – GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Tento článek obsahuje pokyny k řešení nejběžnějších problémů, které způsobují selhání instalace rozšíření GPU na virtuálním počítači s GPU ve službě Azure Stack Edge Pro.
Postup instalace najdete v tématu Instalace rozšíření GPU.
Ve verzích nižších než 2205 nainstaluje rozšíření GPU pro Linux staré podpisové klíče: chybí podpis nebo požadovaný klíč.
Popis chyby: Rozšíření GPU s Linuxem nainstaluje staré podpisové klíče, což brání stažení požadovaného ovladače GPU. V tomto případě se v syslogu virtuálního počítače s Linuxem zobrazí následující chyba:
/var/log/syslog and /var/log/waagent.log
May 5 06:04:53 gpuvm12 kernel: [ 833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel
Navrhovaná řešení: Máte dvě možnosti, jak tento problém zmírnit:
Možnost 1: Použijte na zařízení aktualizace Azure Stack Edge 2205.
Možnost 2: Po vytvoření virtuálního počítače s GPU ve NCasT4_v3 řadách ručně nainstalujte nové podpisové klíče před instalací rozšíření a pak pomocí kroků v aktualizaci klíče úložiště GPG pro CUDA Linux | NVIDIA Technical Blog.
Tady je příklad, který nainstaluje podpisové klíče na virtuální počítač s Ubuntu 1804:
$ sudo apt-key adv --fetch- keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
Selhání instalace rozšíření GPU na virtuální pevný disk s Windows 2016
Popis chyby: Jedná se o známý problém ve verzích nižších než 2205. Rozšíření GPU vyžaduje protokol TLS 1.2. V tomto případě se může zobrazit následující chybová zpráva:
Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!
Další podrobnosti:
- Zkontrolujte přidruženou chybu v protokolu hosta. Pokud chcete shromáždit protokoly hosta, přečtěte si téma Shromažďování protokolů hosta pro virtuální počítače na zařízení Azure Stack Edge Pro GPU.
- Na virtuálním počítači s Linuxem vyhledejte
/var/log/waagent.log
nebo/var/log/azure/nvidia-vmext-status
. - Na virtuálním počítači s Windows vyhledejte stav chyby v
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
souboru . - Zkontrolujte úplný protokol
C:\WindowsAzure\Logs\WaAppAgent.txt
spuštění .
Pokud se instalace během stahování balíčku nezdařila, znamená to, že virtuální počítač nemohl získat přístup k veřejné síti a stáhnout ovladač.
Navrhované řešení: K povolení protokolu TLS 1.2 na virtuálním počítači s Windows 2016 a následnému nasazení rozšíření GPU použijte následující postup.
Spuštěním následujícího příkazu na virtuálním počítači povolte protokol TLS 1.2:
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
Nasaďte šablonu
addGPUextensiontoVM.json
pro instalaci rozšíření na existující virtuální počítač. Rozšíření můžete nainstalovat ručně nebo ho můžete nainstalovat z webu Azure Portal.- Pokud chcete rozšíření nainstalovat ručně, přečtěte si téma Instalace rozšíření GPU na virtuální počítače pro zařízení Azure Stack Edge Pro GPU.
- Pokud chcete šablonu nainstalovat pomocí webu Azure Portal, přečtěte si téma Nasazení virtuálních počítačů GPU na zařízení Azure Stack Edge Pro GPU.
Poznámka:
Nasazení rozšíření je dlouhotrvající úloha a dokončení trvá přibližně 10 minut.
Ruční instalace ovladače Nvidia na RHEL 7
Popis chyby: Při instalaci rozšíření GPU na virtuální počítač RHEL 7 může instalace selhat kvůli problému obměně certifikátů a nekompatibilní verzi ovladače.
Navrhované řešení: V tomto případě máte dvě možnosti:
Možnost 1: Vyřešte problém s obměnou certifikáty a pak nainstalujte ovladač Nvidia nižší než verze 510.
Pokud chcete vyřešit problém s obměnou certifikáty, spusťte následující příkaz:
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
Nainstalujte ovladač Nvidia nižší než verze 510.
Možnost 2: Nasazení rozšíření GPU Při nasazování rozšíření ARM použijte následující nastavení:
settings": { "isCustomInstall": true, "InstallMethod": 0, "DRIVER_URL": " https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", "DKMS_URL" : " https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", "LIS_URL": " https://aka.ms/lis", "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" }
Velikost virtuálního počítače není velikost virtuálního počítače GPU
Popis chyby: Virtuální počítač GPU musí být buď Standard_NC4as_T4_v3, nebo Standard_NC8as_T4_v3 velikost. Pokud se použije nějaká jiná velikost virtuálního počítače, rozšíření GPU se nepodaří připojit.
Navrhované řešení: Vytvořte virtuální počítač s velikostí Standard_NC4as_T4_v3 nebo Standard_NC8as_T4_v3 virtuálních počítačů. Další informace najdete v tématu Podporované velikosti virtuálních počítačů pro virtuální počítače s GPU. Informace o určení velikosti najdete v tématu Vytvoření virtuálních počítačů GPU.
Operační systém imagí není podporovaný.
Popis chyby: Rozšíření GPU nepodporuje operační systém nainstalovaný na imagi virtuálního počítače.
Navrhované řešení: Připravte novou image virtuálního počítače s operačním systémem, který rozšíření GPU podporuje.
Seznam podporovaných operačních systémů najdete v tématu Podporované ovladače operačního systému a GPU pro virtuální počítače s GPU.
Požadavky na přípravu imagí pro virtuální počítač s GPU najdete v tématu Vytvoření virtuálních počítačů GPU.
Parametr rozšíření je nesprávný.
Popis chyby: Při nasazování rozšíření GPU na virtuálním počítači s Linuxem se použilo nesprávné nastavení rozšíření.
Navrhované řešení: Před nasazením rozšíření GPU upravte soubor parametrů. Další informace najdete v tématu Instalace rozšíření GPU.
Instalace rozšíření virtuálního počítače selhala při stahování balíčku
Popis chyby: Zřizování rozšíření selhalo během instalace rozšíření nebo během povolení.
Zkontrolujte přidruženou chybu v protokolu hosta. Pokud chcete shromáždit protokoly hostů, přečtěte si téma Shromažďování protokolů hosta pro virtuální počítače ve službě Azure Stack Edge Pro.
Na virtuálním počítači s Linuxem:
- Podívejte se nebo
/var/log/waagent.log
/var/log/azure/nvidia-vmext-status
.
Na virtuálním počítači s Windows:
- Zjistěte stav chyby v
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
souboru . - Zkontrolujte úplný protokol spuštění:
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Pokud se instalace během stahování balíčku nezdařila, znamená to, že virtuální počítač nemohl získat přístup k veřejné síti a stáhnout ovladač.
- Podívejte se nebo
Navrhované řešení:
Povolte výpočetní prostředky na portu připojeném k internetu. Pokyny najdete v tématu Vytvoření virtuálních počítačů GPU.
Uvolněte virtuální počítač zastavením virtuálního počítače na portálu. Pokud chcete virtuální počítač zastavit, přejděte na Přehled virtuálních počítačů>a vyberte virtuální počítač. Potom na stránce vlastností virtuálního počítače vyberte Zastavit.
Vytvořte nový virtuální počítač.
Rozšíření virtuálního počítače selhalo s chybou dpkg is used/yum lock is used
(virtuální počítač s Linuxem)
Popis chyby: Nasazení rozšíření GPU na virtuálním počítači s Linuxem selhalo, protože jiný proces používal dpkg
nebo jiný proces vytvořil yum lock
.
Navrhované řešení: Pokud chcete tento problém vyřešit, postupujte takto:
Pokud chcete zjistit, jaký proces používá zámek, vyhledejte v protokolu stavu \var\log\azure\nvidia-vmext-status chybu, například "dpkg se používá jiným procesem" nebo "Jiná aplikace drží
yum lock
".Buď počkejte na dokončení procesu, nebo proces ukončete.
Pokud nasazení rozšíření selže znovu, vytvořte nový virtuální počítač a před instalací rozšíření GPU se ujistěte, že zámek neexistuje.