Udostępnij za pośrednictwem


Instalowanie rozszerzenia procesora GPU na maszynach wirtualnych dla urządzenia z procesorem GPU Usługi Azure Stack Edge Pro

DOTYCZY:Tak dla wersji Pro — jednostka SKU procesora GPU Azure Stack Edge Pro — GPUTak dla jednostki SKU Pro 2Azure Stack Edge Pro 2Tak dla jednostki SKU Pro RAzure Stack Edge Pro R

W tym artykule opisano sposób instalowania rozszerzenia sterownika procesora GPU w celu zainstalowania odpowiednich sterowników firmy Nvidia na maszynach wirtualnych procesora GPU uruchomionych na urządzeniu Azure Stack Edge. W tym artykule opisano kroki instalacji rozszerzenia procesora GPU przy użyciu szablonów usługi Azure Resource Manager na maszynach wirtualnych z systemami Windows i Linux.

Uwaga

Wymagania wstępne

Przed zainstalowaniem rozszerzenia procesora GPU na maszynach wirtualnych procesora GPU uruchomionych na urządzeniu upewnij się, że:

  1. Masz dostęp do urządzenia Azure Stack Edge, na którym wdrażasz co najmniej jedną maszynę wirtualną procesora GPU. Zobacz, jak wdrożyć maszynę wirtualną z procesorem GPU na urządzeniu.

    • Upewnij się, że port włączony dla sieci obliczeniowej na urządzeniu jest połączony z Internetem i ma dostęp. Sterowniki procesora GPU są pobierane za pośrednictwem dostępu do Internetu.

      Oto przykład, w którym port 2 był połączony z Internetem i był używany do włączania sieci obliczeniowej. Jeśli platforma Kubernetes nie jest wdrożona w środowisku, możesz pominąć adres IP węzła Kubernetes i przypisanie adresu IP usługi zewnętrznej.

      Zrzut ekranu przedstawiający okienko Obliczenia dla urządzenia Azure Stack Edge. Ustawienia obliczeniowe portu 2 są wyróżnione.

  2. Pobierz szablony rozszerzeń procesora GPU i pliki parametrów na komputer kliencki. Rozpakuj go do katalogu, którego używasz jako katalogu roboczego.

  3. Sprawdź, czy klient, którego będziesz używać do uzyskiwania dostępu do urządzenia, jest nadal połączony z usługą Azure Resource Manager za pośrednictwem programu Azure PowerShell. Połączenie z usługą Azure Resource Manager wygasa co 1,5 godziny lub jeśli urządzenie Azure Stack Edge zostanie uruchomione ponownie. W takim przypadku wszystkie wykonywane polecenia cmdlet będą zwracać komunikaty o błędach do efektu, że nie masz już połączenia z platformą Azure. Musisz zalogować się ponownie. Aby uzyskać szczegółowe instrukcje, zobacz Nawiązywanie połączenia z usługą Azure Resource Manager na urządzeniu Azure Stack Edge.

Edytowanie pliku parametrów

W zależności od systemu operacyjnego maszyny wirtualnej można zainstalować rozszerzenie procesora GPU dla systemu Windows lub Linux.

Aby wdrożyć sterowniki procesora GPU firmy Nvidia dla istniejącej maszyny wirtualnej, zmodyfikuj addGPUExtWindowsVM.parameters.json plik parametrów, a następnie wdróż szablon addGPUextensiontoVM.json.

Wersja 2205 lub nowsza

Plik addGPUExtWindowsVM.parameters.json przyjmuje następujące parametry:

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.5"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Wersje niższe niż 2205

Plik addGPUExtWindowsVM.parameters.json przyjmuje następujące parametry:

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.3"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Wdrażanie szablonu

Wdróż szablon addGPUextensiontoVM.json , aby zainstalować rozszerzenie na istniejącej maszynie wirtualnej.

Uruchom następujące polecenie:

$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"

Uwaga

Wdrożenie rozszerzenia jest długotrwałym zadaniem i trwa około 10 minut.

Oto przykładowe dane wyjściowe:

PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"

DeploymentName          : deployment3
ResourceGroupName       : myasegpuvm1
ProvisioningState       : Succeeded
Timestamp               : 12/16/2020 12:18:50 AM
Mode                    : Incremental
TemplateLink            :
Parameters              :
                       Name             Type                       Value
                       ===============  =========================  ==========
                       vmName           String                     VM2
                       extensionName    String                     windowsgpuext
                       publisher        String                     Microsoft.HpcCompute
                       type             String                     NvidiaGpuDriverWindows
                       typeHandlerVersion  String                     1.3
                       settings         Object                     {
                         "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                         "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                         "DriverType": "CUDA"
                       }

Outputs                 :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>

Śledzenie wdrożenia

Aby sprawdzić stan wdrożenia rozszerzeń dla danej maszyny wirtualnej, otwórz kolejną sesję programu PowerShell (uruchom jako administrator), a następnie uruchom następujące polecenie:

Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>

Oto przykładowe dane wyjściowe:

PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext

ResourceGroupName       : myasegpuvm1
VMName                  : VM2
Name                    : windowsgpuext
Location                : dbelocal
Etag                    : null
Publisher               : Microsoft.HpcCompute
ExtensionType           : NvidiaGpuDriverWindows
TypeHandlerVersion      : 1.3
Id                      : /subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings          : {
                            "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                            "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                            "DriverType": "CUDA"
                          }
ProtectedSettings       :
ProvisioningState       : Creating
Statuses                :
SubStatuses             :
AutoUpgradeMinorVersion : True
ForceUpdateTag          :

PS C:\WINDOWS\system32>

Dane wyjściowe wykonywania rozszerzenia są rejestrowane w następującym pliku. Zapoznaj się z tym plikiem C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status , aby śledzić stan instalacji.

Pomyślna instalacja wyświetla message element z elementami Enable Extension i status .success

"status":  {
                       "formattedMessage":  {
                                                "message":  "Enable Extension",
                                                "lang":  "en"
                                            },
                       "name":  "NvidiaGpuDriverWindows",
                       "status":  "success",

Weryfikowanie instalacji sterownika

Zaloguj się do maszyny wirtualnej i uruchom narzędzie wiersza polecenia nvidia-smi zainstalowane za pomocą sterownika.

Wersja 2205 lub nowsza

Obiekt nvidia-smi.exe znajduje się w lokalizacji C:\Windows\System32\nvidia-smi.exe. Jeśli plik nie jest widoczny, instalacja sterownika jest nadal uruchomiona w tle. Poczekaj 10 minut i sprawdź ponownie.

Wersje niższe niż 2205

Obiekt nvidia-smi.exe znajduje się w lokalizacji C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe. Jeśli plik nie jest widoczny, instalacja sterownika jest nadal uruchomiona w tle. Poczekaj 10 minut i sprawdź ponownie.

Jeśli sterownik jest zainstalowany, zobaczysz dane wyjściowe podobne do następującego przykładu:

PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls

    Directory: C:\Program Files\NVIDIA Corporation\NVSMI

Mode                LastWriteTime         Length Name
----                -------------         ------ ----
-a----        2/26/2020  12:00 PM         849640 MCU.exe
-a----        2/26/2020  12:00 PM         443104 nvdebugdump.exe
-a----        2/25/2020   2:06 AM          81823 nvidia-smi.1.pdf
-a----        2/26/2020  12:01 PM         566880 nvidia-smi.exe
-a----        2/26/2020  12:01 PM         991344 nvml.dll

PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50       Driver Version: 442.50       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla T4            TCC  | 0000503C:00:00.0 Off |                    0 |
| N/A   35C    P8    11W /  70W |      8MiB / 15205MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>

Aby uzyskać więcej informacji, zobacz Rozszerzenie sterownika procesora GPU firmy Nvidia dla systemu Windows.

Uwaga

Po zakończeniu instalowania sterownika procesora GPU i rozszerzenia procesora GPU nie trzeba już używać portu z dostępem do Internetu na potrzeby obliczeń.

Usuwanie rozszerzenia procesora GPU

Aby usunąć rozszerzenie procesora GPU, użyj następującego polecenia:

Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>

Oto przykładowe dane wyjściowe:

PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
          True                OK         OK

Następne kroki

Instrukcje: