Instalace rozšíření GPU na virtuální počítače pro zařízení Azure Stack Edge Pro GPU
PLATÍ PRO: Azure Stack Edge Pro – GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Tento článek popisuje, jak nainstalovat rozšíření ovladače GPU pro instalaci vhodných ovladačů Nvidia na virtuální počítače GPU spuštěné na zařízení Azure Stack Edge. Tento článek popisuje postup instalace rozšíření GPU pomocí šablon Azure Resource Manageru na virtuálních počítačích s Windows i Linuxem.
Poznámka:
- Na webu Azure Portal můžete během vytváření virtuálního počítače nebo po nasazení virtuálního počítače nainstalovat rozšíření GPU. Postup a požadavky najdete v tématu Nasazení virtuálních počítačů GPU.
- Pokud používáte virtuální pevný disk s Windows 2016, musíte na virtuálním počítači povolit protokol TLS 1.2, než nainstalujete rozšíření GPU na verzi 2205 nebo vyšší. Podrobný postup najdete v tématu Řešení potíží s rozšířením GPU pro virtuální počítače GPU ve službě Azure Stack Edge Pro GPU.
Požadavky
Než nainstalujete rozšíření GPU na virtuální počítače GPU spuštěné na vašem zařízení, ujistěte se, že:
Máte přístup k zařízení Azure Stack Edge, na kterém nasazujete jeden nebo více virtuálních počítačů GPU. Podívejte se, jak na zařízení nasadit virtuální počítač s GPU.
Ujistěte se, že je port povolený pro výpočetní síť na vašem zařízení připojený k internetu a že má přístup. Ovladače GPU se stáhnou přes přístup k internetu.
Tady je příklad, kdy byl port 2 připojený k internetu a byl použit k povolení výpočetní sítě. Pokud kubernetes není ve vašem prostředí nasazený, můžete přeskočit IP adresu uzlu Kubernetes a přiřazení IP adresy externí služby.
Stáhněte si šablony rozšíření GPU a soubory parametrů do klientského počítače. Rozbalte ho do adresáře, který používáte jako pracovní adresář.
Ověřte, že klient, kterého použijete pro přístup k zařízení, je stále připojený k Azure Resource Manageru přes Azure PowerShell. Připojení k Azure Resource Manageru vyprší každých 1,5 hodiny nebo pokud se vaše zařízení Azure Stack Edge restartuje. Pokud k tomu dojde, vrátí všechny rutiny, které spustíte, chybové zprávy, které se projeví, že už nejste připojení k Azure. Musíte se znovu přihlásit. Podrobné pokyny najdete v tématu Připojení k Azure Resource Manageru na zařízení Azure Stack Edge.
Úprava souboru parametrů
V závislosti na operačním systému virtuálního počítače můžete nainstalovat rozšíření GPU pro Windows nebo Linux.
Pokud chcete nasadit ovladače Nvidia GPU pro existující virtuální počítač, upravte addGPUExtWindowsVM.parameters.json
soubor parametrů a pak šablonu nasaďte addGPUextensiontoVM.json
.
Verze 2205 a vyšší
Soubor addGPUExtWindowsVM.parameters.json
má následující parametry:
"parameters": {
"vmName": {
"value": "<name of the VM>"
},
"extensionName": {
"value": "<name for the extension. Example: windowsGpu>"
},
"publisher": {
"value": "Microsoft.HpcCompute"
},
"type": {
"value": "NvidiaGpuDriverWindows"
},
"typeHandlerVersion": {
"value": "1.5"
},
"settings": {
"value": {
"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType":"CUDA"
}
}
}
Verze nižší než 2205
Soubor addGPUExtWindowsVM.parameters.json
má následující parametry:
"parameters": {
"vmName": {
"value": "<name of the VM>"
},
"extensionName": {
"value": "<name for the extension. Example: windowsGpu>"
},
"publisher": {
"value": "Microsoft.HpcCompute"
},
"type": {
"value": "NvidiaGpuDriverWindows"
},
"typeHandlerVersion": {
"value": "1.3"
},
"settings": {
"value": {
"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType":"CUDA"
}
}
}
Nasazení šablony
Nasaďte šablonu addGPUextensiontoVM.json
pro instalaci rozšíření na existující virtuální počítač.
Spusťte následující příkaz:
$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"
Poznámka:
Nasazení rozšíření je dlouhotrvající úloha a dokončení trvá přibližně 10 minut.
Tady je ukázkový výstup:
PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"
DeploymentName : deployment3
ResourceGroupName : myasegpuvm1
ProvisioningState : Succeeded
Timestamp : 12/16/2020 12:18:50 AM
Mode : Incremental
TemplateLink :
Parameters :
Name Type Value
=============== ========================= ==========
vmName String VM2
extensionName String windowsgpuext
publisher String Microsoft.HpcCompute
type String NvidiaGpuDriverWindows
typeHandlerVersion String 1.3
settings Object {
"DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType": "CUDA"
}
Outputs :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>
Sledování nasazení
Pokud chcete zkontrolovat stav nasazení rozšíření pro daný virtuální počítač, otevřete jinou relaci PowerShellu (spusťte ji jako správce) a spusťte následující příkaz:
Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>
Tady je ukázkový výstup:
PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext
ResourceGroupName : myasegpuvm1
VMName : VM2
Name : windowsgpuext
Location : dbelocal
Etag : null
Publisher : Microsoft.HpcCompute
ExtensionType : NvidiaGpuDriverWindows
TypeHandlerVersion : 1.3
Id : /subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings : {
"DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType": "CUDA"
}
ProtectedSettings :
ProvisioningState : Creating
Statuses :
SubStatuses :
AutoUpgradeMinorVersion : True
ForceUpdateTag :
PS C:\WINDOWS\system32>
Výstup spuštění rozšíření se protokoluje do následujícího souboru. Informace o stavu instalace najdete v tomto souboru C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
.
Úspěšná instalace zobrazí message
Enable Extension
status
success
"status": {
"formattedMessage": {
"message": "Enable Extension",
"lang": "en"
},
"name": "NvidiaGpuDriverWindows",
"status": "success",
Ověření instalace ovladače
Přihlaste se k virtuálnímu počítači a spusťte nástroj příkazového řádku nvidia-smi nainstalovaný s ovladačem.
Verze 2205 a vyšší
Nachází se nvidia-smi.exe
na C:\Windows\System32\nvidia-smi.exe
adrese . Pokud soubor nevidíte, je možné, že instalace ovladače stále běží na pozadí. Počkejte 10 minut a zkontrolujte to znovu.
Verze nižší než 2205
Nachází se nvidia-smi.exe
na C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe
adrese . Pokud soubor nevidíte, je možné, že instalace ovladače stále běží na pozadí. Počkejte 10 minut a zkontrolujte to znovu.
Pokud je ovladač nainstalovaný, zobrazí se výstup podobný následujícímu příkladu:
PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls
Directory: C:\Program Files\NVIDIA Corporation\NVSMI
Mode LastWriteTime Length Name
---- ------------- ------ ----
-a---- 2/26/2020 12:00 PM 849640 MCU.exe
-a---- 2/26/2020 12:00 PM 443104 nvdebugdump.exe
-a---- 2/25/2020 2:06 AM 81823 nvidia-smi.1.pdf
-a---- 2/26/2020 12:01 PM 566880 nvidia-smi.exe
-a---- 2/26/2020 12:01 PM 991344 nvml.dll
PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50 Driver Version: 442.50 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla T4 TCC | 0000503C:00:00.0 Off | 0 |
| N/A 35C P8 11W / 70W | 8MiB / 15205MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>
Další informace naleznete v tématu Rozšíření ovladače Nvidia GPU pro Windows.
Poznámka:
Po dokončení instalace ovladače GPU a rozšíření GPU už nemusíte pro výpočetní prostředky používat port s přístupem k internetu.
Odebrání rozšíření GPU
Pokud chcete rozšíření GPU odebrat, použijte následující příkaz:
Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>
Tady je ukázkový výstup:
PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
True OK OK
Další kroky
Naučte se: