Instalowanie rozszerzenia procesora GPU na maszynach wirtualnych dla urządzenia z procesorem GPU Usługi Azure Stack Edge Pro
DOTYCZY: Azure Stack Edge Pro — GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
W tym artykule opisano sposób instalowania rozszerzenia sterownika procesora GPU w celu zainstalowania odpowiednich sterowników firmy Nvidia na maszynach wirtualnych procesora GPU uruchomionych na urządzeniu Azure Stack Edge. W tym artykule opisano kroki instalacji rozszerzenia procesora GPU przy użyciu szablonów usługi Azure Resource Manager na maszynach wirtualnych z systemami Windows i Linux.
Uwaga
- W witrynie Azure Portal można zainstalować rozszerzenie procesora GPU podczas tworzenia maszyny wirtualnej lub po wdrożeniu maszyny wirtualnej. Aby uzyskać instrukcje i wymagania, zobacz Wdrażanie maszyn wirtualnych procesora GPU.
- Jeśli używasz dysku VHD systemu Windows 2016, przed zainstalowaniem rozszerzenia procesora GPU w wersji 2205 lub nowszej należy włączyć protokół TLS 1.2 na maszynie wirtualnej. Aby uzyskać szczegółowe instrukcje, zobacz Rozwiązywanie problemów z rozszerzeniem procesora GPU dla maszyn wirtualnych gpu w usłudze Azure Stack Edge Pro.
Wymagania wstępne
Przed zainstalowaniem rozszerzenia procesora GPU na maszynach wirtualnych procesora GPU uruchomionych na urządzeniu upewnij się, że:
Masz dostęp do urządzenia Azure Stack Edge, na którym wdrażasz co najmniej jedną maszynę wirtualną procesora GPU. Zobacz, jak wdrożyć maszynę wirtualną z procesorem GPU na urządzeniu.
Upewnij się, że port włączony dla sieci obliczeniowej na urządzeniu jest połączony z Internetem i ma dostęp. Sterowniki procesora GPU są pobierane za pośrednictwem dostępu do Internetu.
Oto przykład, w którym port 2 był połączony z Internetem i był używany do włączania sieci obliczeniowej. Jeśli platforma Kubernetes nie jest wdrożona w środowisku, możesz pominąć adres IP węzła Kubernetes i przypisanie adresu IP usługi zewnętrznej.
Pobierz szablony rozszerzeń procesora GPU i pliki parametrów na komputer kliencki. Rozpakuj go do katalogu, którego używasz jako katalogu roboczego.
Sprawdź, czy klient, którego będziesz używać do uzyskiwania dostępu do urządzenia, jest nadal połączony z usługą Azure Resource Manager za pośrednictwem programu Azure PowerShell. Połączenie z usługą Azure Resource Manager wygasa co 1,5 godziny lub jeśli urządzenie Azure Stack Edge zostanie uruchomione ponownie. W takim przypadku wszystkie wykonywane polecenia cmdlet będą zwracać komunikaty o błędach do efektu, że nie masz już połączenia z platformą Azure. Musisz zalogować się ponownie. Aby uzyskać szczegółowe instrukcje, zobacz Nawiązywanie połączenia z usługą Azure Resource Manager na urządzeniu Azure Stack Edge.
Edytowanie pliku parametrów
W zależności od systemu operacyjnego maszyny wirtualnej można zainstalować rozszerzenie procesora GPU dla systemu Windows lub Linux.
Aby wdrożyć sterowniki procesora GPU firmy Nvidia dla istniejącej maszyny wirtualnej, zmodyfikuj addGPUExtWindowsVM.parameters.json
plik parametrów, a następnie wdróż szablon addGPUextensiontoVM.json
.
Wersja 2205 lub nowsza
Plik addGPUExtWindowsVM.parameters.json
przyjmuje następujące parametry:
"parameters": {
"vmName": {
"value": "<name of the VM>"
},
"extensionName": {
"value": "<name for the extension. Example: windowsGpu>"
},
"publisher": {
"value": "Microsoft.HpcCompute"
},
"type": {
"value": "NvidiaGpuDriverWindows"
},
"typeHandlerVersion": {
"value": "1.5"
},
"settings": {
"value": {
"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType":"CUDA"
}
}
}
Wersje niższe niż 2205
Plik addGPUExtWindowsVM.parameters.json
przyjmuje następujące parametry:
"parameters": {
"vmName": {
"value": "<name of the VM>"
},
"extensionName": {
"value": "<name for the extension. Example: windowsGpu>"
},
"publisher": {
"value": "Microsoft.HpcCompute"
},
"type": {
"value": "NvidiaGpuDriverWindows"
},
"typeHandlerVersion": {
"value": "1.3"
},
"settings": {
"value": {
"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType":"CUDA"
}
}
}
Wdrażanie szablonu
Wdróż szablon addGPUextensiontoVM.json
, aby zainstalować rozszerzenie na istniejącej maszynie wirtualnej.
Uruchom następujące polecenie:
$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"
Uwaga
Wdrożenie rozszerzenia jest długotrwałym zadaniem i trwa około 10 minut.
Oto przykładowe dane wyjściowe:
PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"
DeploymentName : deployment3
ResourceGroupName : myasegpuvm1
ProvisioningState : Succeeded
Timestamp : 12/16/2020 12:18:50 AM
Mode : Incremental
TemplateLink :
Parameters :
Name Type Value
=============== ========================= ==========
vmName String VM2
extensionName String windowsgpuext
publisher String Microsoft.HpcCompute
type String NvidiaGpuDriverWindows
typeHandlerVersion String 1.3
settings Object {
"DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType": "CUDA"
}
Outputs :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>
Śledzenie wdrożenia
Aby sprawdzić stan wdrożenia rozszerzeń dla danej maszyny wirtualnej, otwórz kolejną sesję programu PowerShell (uruchom jako administrator), a następnie uruchom następujące polecenie:
Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>
Oto przykładowe dane wyjściowe:
PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext
ResourceGroupName : myasegpuvm1
VMName : VM2
Name : windowsgpuext
Location : dbelocal
Etag : null
Publisher : Microsoft.HpcCompute
ExtensionType : NvidiaGpuDriverWindows
TypeHandlerVersion : 1.3
Id : /subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings : {
"DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType": "CUDA"
}
ProtectedSettings :
ProvisioningState : Creating
Statuses :
SubStatuses :
AutoUpgradeMinorVersion : True
ForceUpdateTag :
PS C:\WINDOWS\system32>
Dane wyjściowe wykonywania rozszerzenia są rejestrowane w następującym pliku. Zapoznaj się z tym plikiem C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
, aby śledzić stan instalacji.
Pomyślna instalacja wyświetla message
element z elementami Enable Extension
i status
.success
"status": {
"formattedMessage": {
"message": "Enable Extension",
"lang": "en"
},
"name": "NvidiaGpuDriverWindows",
"status": "success",
Weryfikowanie instalacji sterownika
Zaloguj się do maszyny wirtualnej i uruchom narzędzie wiersza polecenia nvidia-smi zainstalowane za pomocą sterownika.
Wersja 2205 lub nowsza
Obiekt nvidia-smi.exe
znajduje się w lokalizacji C:\Windows\System32\nvidia-smi.exe
. Jeśli plik nie jest widoczny, instalacja sterownika jest nadal uruchomiona w tle. Poczekaj 10 minut i sprawdź ponownie.
Wersje niższe niż 2205
Obiekt nvidia-smi.exe
znajduje się w lokalizacji C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe
. Jeśli plik nie jest widoczny, instalacja sterownika jest nadal uruchomiona w tle. Poczekaj 10 minut i sprawdź ponownie.
Jeśli sterownik jest zainstalowany, zobaczysz dane wyjściowe podobne do następującego przykładu:
PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls
Directory: C:\Program Files\NVIDIA Corporation\NVSMI
Mode LastWriteTime Length Name
---- ------------- ------ ----
-a---- 2/26/2020 12:00 PM 849640 MCU.exe
-a---- 2/26/2020 12:00 PM 443104 nvdebugdump.exe
-a---- 2/25/2020 2:06 AM 81823 nvidia-smi.1.pdf
-a---- 2/26/2020 12:01 PM 566880 nvidia-smi.exe
-a---- 2/26/2020 12:01 PM 991344 nvml.dll
PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50 Driver Version: 442.50 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla T4 TCC | 0000503C:00:00.0 Off | 0 |
| N/A 35C P8 11W / 70W | 8MiB / 15205MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>
Aby uzyskać więcej informacji, zobacz Rozszerzenie sterownika procesora GPU firmy Nvidia dla systemu Windows.
Uwaga
Po zakończeniu instalowania sterownika procesora GPU i rozszerzenia procesora GPU nie trzeba już używać portu z dostępem do Internetu na potrzeby obliczeń.
Usuwanie rozszerzenia procesora GPU
Aby usunąć rozszerzenie procesora GPU, użyj następującego polecenia:
Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>
Oto przykładowe dane wyjściowe:
PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
True OK OK
Następne kroki
Instrukcje: