Udostępnij za pośrednictwem


Rozwiązywanie problemów z rozszerzeniem procesora GPU dla maszyn wirtualnych gpu w usłudze Azure Stack Edge Pro

DOTYCZY:Tak dla wersji Pro — jednostka SKU procesora GPU Azure Stack Edge Pro — GPUTak dla jednostki SKU Pro 2Azure Stack Edge Pro 2Tak dla jednostki SKU Pro RAzure Stack Edge Pro R

Ten artykuł zawiera wskazówki dotyczące rozwiązywania najczęstszych problemów, które powodują niepowodzenie instalacji rozszerzenia procesora GPU na maszynie wirtualnej z procesorem GPU w usłudze Azure Stack Edge Pro.

Aby uzyskać instrukcje instalacji, zobacz Instalowanie rozszerzenia procesora GPU.

W wersjach starszych niż 2205 rozszerzenie procesora GPU systemu Linux instaluje stare klucze podpisywania: brak podpisu i/lub wymaganego klucza

Opis błędu: Rozszerzenie procesora GPU systemu Linux instaluje stare klucze podpisywania, uniemożliwiając pobranie wymaganego sterownika procesora GPU. W takim przypadku w dzienniku systemowym maszyny wirtualnej z systemem Linux zostanie wyświetlony następujący błąd:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Sugerowane rozwiązania: istnieją dwie opcje rozwiązania tego problemu:

  • Opcja 1. Stosowanie aktualizacji usługi Azure Stack Edge 2205 do urządzenia.

  • Opcja 2. Po utworzeniu maszyny wirtualnej procesora GPU o rozmiarze w NCasT4_v3 serii ręcznie zainstaluj nowe klucze podpisywania przed zainstalowaniem rozszerzenia, a następnie ustaw wymagane klucze podpisywania, wykonując kroki opisane w temacie Aktualizowanie klucza repozytorium GPG systemu LINUX CUDA | Blog techniczny firmy NVIDIA.

    Oto przykład instalowania kluczy podpisywania na maszynie wirtualnej z systemem Ubuntu 1804:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Nie można zainstalować rozszerzenia procesora GPU na dysku VHD systemu Windows 2016

Opis błędu: Jest to znany problem w wersjach niższych niż 2205. Rozszerzenie procesora GPU wymaga protokołu TLS 1.2. W takim przypadku może zostać wyświetlony następujący komunikat o błędzie:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Dodatkowe szczegóły:

  • Sprawdź dziennik gościa pod kątem skojarzonego błędu. Aby zebrać dzienniki gościa, zobacz Zbieranie dzienników gościa dla maszyn wirtualnych na urządzeniu z procesorem GPU Usługi Azure Stack Edge Pro.
  • Na maszynie wirtualnej z systemem Linux wyszukaj element /var/log/waagent.log lub /var/log/azure/nvidia-vmext-status.
  • Na maszynie wirtualnej z systemem Windows znajdź stan błędu w pliku C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
  • Przejrzyj pełny dziennik wykonywania w witrynie C:\WindowsAzure\Logs\WaAppAgent.txt.

Jeśli instalacja nie powiodła się podczas pobierania pakietu, oznacza to, że maszyna wirtualna nie mogła uzyskać dostępu do sieci publicznej w celu pobrania sterownika.

Sugerowane rozwiązanie: wykonaj następujące kroki, aby włączyć protokół TLS 1.2 na maszynie wirtualnej z systemem Windows 2016, a następnie wdrożyć rozszerzenie procesora GPU.

  1. Uruchom następujące polecenie wewnątrz maszyny wirtualnej, aby włączyć protokół TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Wdróż szablon addGPUextensiontoVM.json , aby zainstalować rozszerzenie na istniejącej maszynie wirtualnej. Rozszerzenie można zainstalować ręcznie lub zainstalować rozszerzenie w witrynie Azure Portal.

    Uwaga

    Wdrożenie rozszerzenia jest długotrwałym zadaniem i trwa około 10 minut.

Ręczne instalowanie sterownika Firmy Nvidia w systemie RHEL 7

Opis błędu: Podczas instalowania rozszerzenia procesora GPU na maszynie wirtualnej RHEL 7 instalacja może zakończyć się niepowodzeniem z powodu problemu z rotacją certyfikatów i niezgodnej wersji sterownika.

Sugerowane rozwiązanie: W tym przypadku masz dwie opcje:

  • Opcja 1. Rozwiąż problem z rotacją certyfikatów, a następnie zainstaluj sterownik firmy Nvidia niższy niż wersja 510.

    1. Aby rozwiązać problem z rotacją certyfikatów, uruchom następujące polecenie:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Zainstaluj sterownik firmy Nvidia niższy niż wersja 510.

  • Opcja 2. Wdróż rozszerzenie procesora GPU. Podczas wdrażania rozszerzenia ARM użyj następujących ustawień:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

Rozmiar maszyny wirtualnej nie jest rozmiarem maszyny wirtualnej procesora GPU

Opis błędu: Maszyna wirtualna z procesorem GPU musi mieć rozmiar Standard_NC4as_T4_v3 lub Standard_NC8as_T4_v3. Jeśli zostanie użyty jakikolwiek inny rozmiar maszyny wirtualnej, rozszerzenie procesora GPU nie zostanie dołączone.

Sugerowane rozwiązanie: utwórz maszynę wirtualną z rozmiarem maszyny wirtualnej Standard_NC4as_T4_v3 lub Standard_NC8as_T4_v3. Aby uzyskać więcej informacji, zobacz Obsługiwane rozmiary maszyn wirtualnych procesora GPU. Aby uzyskać informacje na temat określania rozmiaru, zobacz Create GPU VMs (Tworzenie maszyn wirtualnych procesora GPU).

System operacyjny obrazu nie jest obsługiwany

Opis błędu: Rozszerzenie procesora GPU nie obsługuje systemu operacyjnego zainstalowanego na obrazie maszyny wirtualnej.

Sugerowane rozwiązanie: Przygotuj nowy obraz maszyny wirtualnej z systemem operacyjnym, który obsługuje rozszerzenie procesora GPU.

Parametr rozszerzenia jest niepoprawny

Opis błędu: Użyto nieprawidłowych ustawień rozszerzenia podczas wdrażania rozszerzenia procesora GPU na maszynie wirtualnej z systemem Linux.

Sugerowane rozwiązanie: edytuj plik parametrów przed wdrożeniem rozszerzenia procesora GPU. Aby uzyskać więcej informacji, zobacz Instalowanie rozszerzenia procesora GPU.

Instalacja rozszerzenia maszyny wirtualnej nie powiodła się podczas pobierania pakietu

Opis błędu: Aprowizacja rozszerzenia nie powiodła się podczas instalacji rozszerzenia lub w stanie Włącz.

  1. Sprawdź dziennik gościa pod kątem skojarzonego błędu. Aby zebrać dzienniki gościa, zobacz Zbieranie dzienników gościa dla maszyn wirtualnych w usłudze Azure Stack Edge Pro.

    Na maszynie wirtualnej z systemem Linux:

    • Zajrzyj do /var/log/waagent.log lub /var/log/azure/nvidia-vmext-status.

    Na maszynie wirtualnej z systemem Windows:

    • Sprawdź stan błędu w pliku C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Przejrzyj pełny dziennik wykonywania: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Jeśli instalacja nie powiodła się podczas pobierania pakietu, ten błąd wskazuje, że maszyna wirtualna nie może uzyskać dostępu do sieci publicznej w celu pobrania sterownika.

Sugerowane rozwiązanie:

  1. Włącz obliczenia na porcie połączonym z Internetem. Aby uzyskać wskazówki, zobacz Tworzenie maszyn wirtualnych procesora GPU.

  2. Cofnij przydział maszyny wirtualnej, zatrzymując maszynę wirtualną w portalu. Aby zatrzymać maszynę wirtualną, przejdź do pozycji Przegląd maszyn wirtualnych>i wybierz maszynę wirtualną. Następnie na stronie właściwości maszyny wirtualnej wybierz pozycję Zatrzymaj.

  3. Utwórz nową maszynę wirtualną.

Rozszerzenie maszyny wirtualnej nie powiodło się z powodu błędu dpkg is used/yum lock is used (maszyna wirtualna z systemem Linux)

Opis błędu: Wdrażanie rozszerzenia procesora GPU na maszynie wirtualnej z systemem Linux nie powiodło się, ponieważ inny proces był używany dpkg lub został utworzony yum lockinny proces.

Sugerowane rozwiązanie: Aby rozwiązać ten problem, wykonaj następujące kroki:

  1. Aby dowiedzieć się, jaki proces stosuje blokadę, wyszukaj dziennik \var\log\azure\nvidia-vmext-status pod kątem błędu, takiego jak "dpkg jest używany przez inny proces" lub "Inna aplikacja przechowuje yum lock".

  2. Poczekaj na zakończenie procesu lub zakończ proces.

  3. Ponownie zainstaluj rozszerzenie procesora GPU.

  4. Jeśli wdrożenie rozszerzenia zakończy się niepowodzeniem, utwórz nową maszynę wirtualną i upewnij się, że blokada nie jest obecna przed zainstalowaniem rozszerzenia procesora GPU.

Następne kroki

Zbieranie dzienników gości i tworzenie pakietu pomocy technicznej