Installera GPU-tillägget på virtuella datorer för din Azure Stack Edge Pro GPU-enhet
GÄLLER FÖR: Azure Stack Edge Pro – GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
I den här artikeln beskrivs hur du installerar GPU-drivrutinstillägget för att installera lämpliga Nvidia-drivrutiner på de virtuella GPU-datorer som körs på din Azure Stack Edge-enhet. Artikeln beskriver installationssteg för att installera ett GPU-tillägg med hjälp av Azure Resource Manager-mallar på både virtuella Windows- och Linux-datorer.
Kommentar
- I Azure Portal kan du installera ett GPU-tillägg när den virtuella datorn skapas eller när den virtuella datorn har distribuerats. Anvisningar och krav finns i Distribuera virtuella GPU-datorer.
- Om du kör en virtuell hårddisk för Windows 2016 måste du aktivera TLS 1.2 på den virtuella datorn innan du installerar GPU-tillägget 2205 och senare. Detaljerade steg finns i Felsöka problem med GPU-tillägg för virtuella GPU-datorer på Azure Stack Edge Pro GPU.
Förutsättningar
Innan du installerar GPU-tillägget på de virtuella GPU-datorer som körs på enheten kontrollerar du att:
Du har åtkomst till en Azure Stack Edge-enhet där du distribuerar en eller flera virtuella GPU-datorer. Se hur du distribuerar en virtuell GPU-dator på enheten.
Kontrollera att porten som är aktiverad för beräkningsnätverket på enheten är ansluten till Internet och har åtkomst. GPU-drivrutinerna laddas ned via Internetåtkomsten.
Här är ett exempel där port 2 var ansluten till Internet och användes för att aktivera beräkningsnätverket. Om Kubernetes inte distribueras i din miljö kan du hoppa över Ip-adressen för Kubernetes-noden och ip-tilldelningen för externa tjänster.
Ladda ned GPU-tilläggsmallarna och parameterfilerna till klientdatorn. Packa upp den i en katalog som du använder som arbetskatalog.
Kontrollera att klienten som du använder för att komma åt enheten fortfarande är ansluten till Azure Resource Manager via Azure PowerShell. Anslutningen till Azure Resource Manager upphör att gälla var 1,5:e timme eller om Din Azure Stack Edge-enhet startas om. Om detta händer returnerar eventuella cmdletar som du kör felmeddelanden om att du inte längre är ansluten till Azure. Du måste logga in igen. Detaljerade anvisningar finns i Ansluta till Azure Resource Manager på din Azure Stack Edge-enhet.
Redigera parameterfil
Beroende på operativsystemet för den virtuella datorn kan du installera GPU-tillägget för Windows eller Linux.
Om du vill distribuera Nvidia GPU-drivrutiner för en befintlig virtuell dator redigerar du addGPUExtWindowsVM.parameters.json
parameterfilen och distribuerar sedan mallen addGPUextensiontoVM.json
.
Version 2205 och senare
Filen addGPUExtWindowsVM.parameters.json
tar följande parametrar:
"parameters": {
"vmName": {
"value": "<name of the VM>"
},
"extensionName": {
"value": "<name for the extension. Example: windowsGpu>"
},
"publisher": {
"value": "Microsoft.HpcCompute"
},
"type": {
"value": "NvidiaGpuDriverWindows"
},
"typeHandlerVersion": {
"value": "1.5"
},
"settings": {
"value": {
"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType":"CUDA"
}
}
}
Versioner som är lägre än 2205
Filen addGPUExtWindowsVM.parameters.json
tar följande parametrar:
"parameters": {
"vmName": {
"value": "<name of the VM>"
},
"extensionName": {
"value": "<name for the extension. Example: windowsGpu>"
},
"publisher": {
"value": "Microsoft.HpcCompute"
},
"type": {
"value": "NvidiaGpuDriverWindows"
},
"typeHandlerVersion": {
"value": "1.3"
},
"settings": {
"value": {
"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType":"CUDA"
}
}
}
Distribuera mallen
Distribuera mallen addGPUextensiontoVM.json
för att installera tillägget på en befintlig virtuell dator.
Kör följande kommando:
$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"
Kommentar
Tilläggsdistributionen är ett tidskrävande jobb och tar cirka 10 minuter att slutföra.
Här är ett exempel på utdata:
PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"
DeploymentName : deployment3
ResourceGroupName : myasegpuvm1
ProvisioningState : Succeeded
Timestamp : 12/16/2020 12:18:50 AM
Mode : Incremental
TemplateLink :
Parameters :
Name Type Value
=============== ========================= ==========
vmName String VM2
extensionName String windowsgpuext
publisher String Microsoft.HpcCompute
type String NvidiaGpuDriverWindows
typeHandlerVersion String 1.3
settings Object {
"DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType": "CUDA"
}
Outputs :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>
Spåra distribution
Om du vill kontrollera distributionstillståndet för tillägg för en viss virtuell dator öppnar du en annan PowerShell-session (körs som administratör) och kör sedan följande kommando:
Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>
Här är ett exempel på utdata:
PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext
ResourceGroupName : myasegpuvm1
VMName : VM2
Name : windowsgpuext
Location : dbelocal
Etag : null
Publisher : Microsoft.HpcCompute
ExtensionType : NvidiaGpuDriverWindows
TypeHandlerVersion : 1.3
Id : /subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings : {
"DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType": "CUDA"
}
ProtectedSettings :
ProvisioningState : Creating
Statuses :
SubStatuses :
AutoUpgradeMinorVersion : True
ForceUpdateTag :
PS C:\WINDOWS\system32>
Utdata för tilläggskörning loggas till följande fil. Se den här filen C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
för att spåra installationsstatusen.
En lyckad installation visar ett message
med Enable Extension
och status
av success
.
"status": {
"formattedMessage": {
"message": "Enable Extension",
"lang": "en"
},
"name": "NvidiaGpuDriverWindows",
"status": "success",
Verifiera drivrutinsinstallation
Logga in på den virtuella datorn och kör kommandoradsverktyget nvidia-smi installerat med drivrutinen.
Version 2205 och senare
nvidia-smi.exe
finns på C:\Windows\System32\nvidia-smi.exe
. Om du inte ser filen är det möjligt att drivrutinsinstallationen fortfarande körs i bakgrunden. Vänta i 10 minuter och kontrollera igen.
Versioner som är lägre än 2205
nvidia-smi.exe
finns på C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe
. Om du inte ser filen är det möjligt att drivrutinsinstallationen fortfarande körs i bakgrunden. Vänta i 10 minuter och kontrollera igen.
Om drivrutinen är installerad ser du utdata som liknar följande exempel:
PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls
Directory: C:\Program Files\NVIDIA Corporation\NVSMI
Mode LastWriteTime Length Name
---- ------------- ------ ----
-a---- 2/26/2020 12:00 PM 849640 MCU.exe
-a---- 2/26/2020 12:00 PM 443104 nvdebugdump.exe
-a---- 2/25/2020 2:06 AM 81823 nvidia-smi.1.pdf
-a---- 2/26/2020 12:01 PM 566880 nvidia-smi.exe
-a---- 2/26/2020 12:01 PM 991344 nvml.dll
PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50 Driver Version: 442.50 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla T4 TCC | 0000503C:00:00.0 Off | 0 |
| N/A 35C P8 11W / 70W | 8MiB / 15205MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>
Mer information finns i Nvidia GPU-drivrutinstillägget för Windows.
Kommentar
När du har installerat GPU-drivrutinen och GPU-tillägget behöver du inte längre använda en port med Internetåtkomst för beräkning.
Ta bort GPU-tillägg
Om du vill ta bort GPU-tillägget använder du följande kommando:
Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>
Här är ett exempel på utdata:
PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
True OK OK
Nästa steg
Lär dig att: