Rozwiązywanie problemów z rozszerzeniem procesora GPU dla maszyn wirtualnych gpu w usłudze Azure Stack Edge Pro
DOTYCZY: Azure Stack Edge Pro — GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Ten artykuł zawiera wskazówki dotyczące rozwiązywania najczęstszych problemów, które powodują niepowodzenie instalacji rozszerzenia procesora GPU na maszynie wirtualnej z procesorem GPU w usłudze Azure Stack Edge Pro.
Aby uzyskać instrukcje instalacji, zobacz Instalowanie rozszerzenia procesora GPU.
W wersjach starszych niż 2205 rozszerzenie procesora GPU systemu Linux instaluje stare klucze podpisywania: brak podpisu i/lub wymaganego klucza
Opis błędu: Rozszerzenie procesora GPU systemu Linux instaluje stare klucze podpisywania, uniemożliwiając pobranie wymaganego sterownika procesora GPU. W takim przypadku w dzienniku systemowym maszyny wirtualnej z systemem Linux zostanie wyświetlony następujący błąd:
/var/log/syslog and /var/log/waagent.log
May 5 06:04:53 gpuvm12 kernel: [ 833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel
Sugerowane rozwiązania: istnieją dwie opcje rozwiązania tego problemu:
Opcja 1. Stosowanie aktualizacji usługi Azure Stack Edge 2205 do urządzenia.
Opcja 2. Po utworzeniu maszyny wirtualnej procesora GPU o rozmiarze w NCasT4_v3 serii ręcznie zainstaluj nowe klucze podpisywania przed zainstalowaniem rozszerzenia, a następnie ustaw wymagane klucze podpisywania, wykonując kroki opisane w temacie Aktualizowanie klucza repozytorium GPG systemu LINUX CUDA | Blog techniczny firmy NVIDIA.
Oto przykład instalowania kluczy podpisywania na maszynie wirtualnej z systemem Ubuntu 1804:
$ sudo apt-key adv --fetch- keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
Nie można zainstalować rozszerzenia procesora GPU na dysku VHD systemu Windows 2016
Opis błędu: Jest to znany problem w wersjach niższych niż 2205. Rozszerzenie procesora GPU wymaga protokołu TLS 1.2. W takim przypadku może zostać wyświetlony następujący komunikat o błędzie:
Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!
Dodatkowe szczegóły:
- Sprawdź dziennik gościa pod kątem skojarzonego błędu. Aby zebrać dzienniki gościa, zobacz Zbieranie dzienników gościa dla maszyn wirtualnych na urządzeniu z procesorem GPU Usługi Azure Stack Edge Pro.
- Na maszynie wirtualnej z systemem Linux wyszukaj element
/var/log/waagent.log
lub/var/log/azure/nvidia-vmext-status
. - Na maszynie wirtualnej z systemem Windows znajdź stan błędu w pliku
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Przejrzyj pełny dziennik wykonywania w witrynie
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Jeśli instalacja nie powiodła się podczas pobierania pakietu, oznacza to, że maszyna wirtualna nie mogła uzyskać dostępu do sieci publicznej w celu pobrania sterownika.
Sugerowane rozwiązanie: wykonaj następujące kroki, aby włączyć protokół TLS 1.2 na maszynie wirtualnej z systemem Windows 2016, a następnie wdrożyć rozszerzenie procesora GPU.
Uruchom następujące polecenie wewnątrz maszyny wirtualnej, aby włączyć protokół TLS 1.2:
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
Wdróż szablon
addGPUextensiontoVM.json
, aby zainstalować rozszerzenie na istniejącej maszynie wirtualnej. Rozszerzenie można zainstalować ręcznie lub zainstalować rozszerzenie w witrynie Azure Portal.- Aby zainstalować rozszerzenie ręcznie, zobacz Instalowanie rozszerzenia procesora GPU na maszynach wirtualnych dla urządzenia gpu Usługi Azure Stack Edge Pro
- Aby zainstalować szablon przy użyciu witryny Azure Portal, zobacz Wdrażanie maszyn wirtualnych procesora GPU na urządzeniu z procesorem GPU Usługi Azure Stack Edge Pro.
Uwaga
Wdrożenie rozszerzenia jest długotrwałym zadaniem i trwa około 10 minut.
Ręczne instalowanie sterownika Firmy Nvidia w systemie RHEL 7
Opis błędu: Podczas instalowania rozszerzenia procesora GPU na maszynie wirtualnej RHEL 7 instalacja może zakończyć się niepowodzeniem z powodu problemu z rotacją certyfikatów i niezgodnej wersji sterownika.
Sugerowane rozwiązanie: W tym przypadku masz dwie opcje:
Opcja 1. Rozwiąż problem z rotacją certyfikatów, a następnie zainstaluj sterownik firmy Nvidia niższy niż wersja 510.
Aby rozwiązać problem z rotacją certyfikatów, uruchom następujące polecenie:
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
Zainstaluj sterownik firmy Nvidia niższy niż wersja 510.
Opcja 2. Wdróż rozszerzenie procesora GPU. Podczas wdrażania rozszerzenia ARM użyj następujących ustawień:
settings": { "isCustomInstall": true, "InstallMethod": 0, "DRIVER_URL": " https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", "DKMS_URL" : " https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", "LIS_URL": " https://aka.ms/lis", "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" }
Rozmiar maszyny wirtualnej nie jest rozmiarem maszyny wirtualnej procesora GPU
Opis błędu: Maszyna wirtualna z procesorem GPU musi mieć rozmiar Standard_NC4as_T4_v3 lub Standard_NC8as_T4_v3. Jeśli zostanie użyty jakikolwiek inny rozmiar maszyny wirtualnej, rozszerzenie procesora GPU nie zostanie dołączone.
Sugerowane rozwiązanie: utwórz maszynę wirtualną z rozmiarem maszyny wirtualnej Standard_NC4as_T4_v3 lub Standard_NC8as_T4_v3. Aby uzyskać więcej informacji, zobacz Obsługiwane rozmiary maszyn wirtualnych procesora GPU. Aby uzyskać informacje na temat określania rozmiaru, zobacz Create GPU VMs (Tworzenie maszyn wirtualnych procesora GPU).
System operacyjny obrazu nie jest obsługiwany
Opis błędu: Rozszerzenie procesora GPU nie obsługuje systemu operacyjnego zainstalowanego na obrazie maszyny wirtualnej.
Sugerowane rozwiązanie: Przygotuj nowy obraz maszyny wirtualnej z systemem operacyjnym, który obsługuje rozszerzenie procesora GPU.
Aby uzyskać listę obsługiwanych systemów operacyjnych, zobacz Obsługiwane sterowniki systemu operacyjnego i procesora GPU dla maszyn wirtualnych z procesorem GPU.
Aby uzyskać informacje o wymaganiach dotyczących przygotowywania obrazów dla maszyny wirtualnej z procesorem GPU, zobacz Tworzenie maszyn wirtualnych procesora GPU.
Parametr rozszerzenia jest niepoprawny
Opis błędu: Użyto nieprawidłowych ustawień rozszerzenia podczas wdrażania rozszerzenia procesora GPU na maszynie wirtualnej z systemem Linux.
Sugerowane rozwiązanie: edytuj plik parametrów przed wdrożeniem rozszerzenia procesora GPU. Aby uzyskać więcej informacji, zobacz Instalowanie rozszerzenia procesora GPU.
Instalacja rozszerzenia maszyny wirtualnej nie powiodła się podczas pobierania pakietu
Opis błędu: Aprowizacja rozszerzenia nie powiodła się podczas instalacji rozszerzenia lub w stanie Włącz.
Sprawdź dziennik gościa pod kątem skojarzonego błędu. Aby zebrać dzienniki gościa, zobacz Zbieranie dzienników gościa dla maszyn wirtualnych w usłudze Azure Stack Edge Pro.
Na maszynie wirtualnej z systemem Linux:
- Zajrzyj do
/var/log/waagent.log
lub/var/log/azure/nvidia-vmext-status
.
Na maszynie wirtualnej z systemem Windows:
- Sprawdź stan błędu w pliku
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Przejrzyj pełny dziennik wykonywania:
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Jeśli instalacja nie powiodła się podczas pobierania pakietu, ten błąd wskazuje, że maszyna wirtualna nie może uzyskać dostępu do sieci publicznej w celu pobrania sterownika.
- Zajrzyj do
Sugerowane rozwiązanie:
Włącz obliczenia na porcie połączonym z Internetem. Aby uzyskać wskazówki, zobacz Tworzenie maszyn wirtualnych procesora GPU.
Cofnij przydział maszyny wirtualnej, zatrzymując maszynę wirtualną w portalu. Aby zatrzymać maszynę wirtualną, przejdź do pozycji Przegląd maszyn wirtualnych>i wybierz maszynę wirtualną. Następnie na stronie właściwości maszyny wirtualnej wybierz pozycję Zatrzymaj.
Utwórz nową maszynę wirtualną.
Rozszerzenie maszyny wirtualnej nie powiodło się z powodu błędu dpkg is used/yum lock is used
(maszyna wirtualna z systemem Linux)
Opis błędu: Wdrażanie rozszerzenia procesora GPU na maszynie wirtualnej z systemem Linux nie powiodło się, ponieważ inny proces był używany dpkg
lub został utworzony yum lock
inny proces.
Sugerowane rozwiązanie: Aby rozwiązać ten problem, wykonaj następujące kroki:
Aby dowiedzieć się, jaki proces stosuje blokadę, wyszukaj dziennik \var\log\azure\nvidia-vmext-status pod kątem błędu, takiego jak "dpkg jest używany przez inny proces" lub "Inna aplikacja przechowuje
yum lock
".Poczekaj na zakończenie procesu lub zakończ proces.
Ponownie zainstaluj rozszerzenie procesora GPU.
Jeśli wdrożenie rozszerzenia zakończy się niepowodzeniem, utwórz nową maszynę wirtualną i upewnij się, że blokada nie jest obecna przed zainstalowaniem rozszerzenia procesora GPU.
Następne kroki
Zbieranie dzienników gości i tworzenie pakietu pomocy technicznej