Udostępnij za pośrednictwem


Rozwiązywanie problemów z wdrażaniem maszyn wirtualnych w procesorze GPU Pro w usłudze Azure Stack Edge

DOTYCZY: Tak dla jednostki SKU procesora GPU ProAzure Stack Edge Pro — GPUTak dla jednostki SKU Pro 2Azure Stack Edge Pro 2Tak dla jednostki SKU Pro RAzure Stack Edge Pro R Azure Stack Edge Mini RTak dla jednostki SKU Mini R

W tym artykule opisano sposób rozwiązywania typowych błędów podczas wdrażania maszyn wirtualnych na urządzeniu z procesorem GPU Usługi Azure Stack Edge Pro. Ten artykuł zawiera wskazówki dotyczące badania najczęstszych problemów, które powodują przekroczenie limitu czasu aprowizacji maszyny wirtualnej i problemy podczas tworzenia interfejsu sieciowego i maszyny wirtualnej.

Aby zdiagnozować wszelkie niepowodzenia aprowizacji maszyny wirtualnej, przejrzyj dzienniki gościa dla maszyny wirtualnej, która zakończyła się niepowodzeniem. Aby uzyskać instrukcje dotyczące zbierania dzienników gościa maszyny wirtualnej i dołączania ich do pakietu pomocy technicznej, zobacz Zbieranie dzienników gościa dla maszyn wirtualnych w usłudze Azure Stack Edge Pro.

Aby uzyskać wskazówki dotyczące problemów uniemożliwiających pomyślne przekazanie obrazu maszyny wirtualnej przed wdrożeniem maszyny wirtualnej, zobacz Rozwiązywanie problemów z przekazywaniem obrazów maszyny wirtualnej w procesorze GPU usługi Azure Stack Edge Pro.

Limit czasu aprowizacji maszyny wirtualnej

Ta sekcja zawiera rozwiązywanie problemów z najczęstszymi przyczynami przekroczenia limitu czasu aprowizacji maszyny wirtualnej.

Po upłynął limit czasu aprowizacji maszyny wirtualnej, zostanie wyświetlony następujący błąd:

Zrzut ekranu przedstawiający błąd wyświetlany w witrynie Azure Portal w przypadku limitu czasu aprowizacji maszyn wirtualnych w usłudze Azure Stack Edge.

Poniżej przedstawiono najważniejsze przyczyny przekroczenia limitu czasu aprowizacji maszyn wirtualnych:

  • Adres IP przypisany do maszyny wirtualnej jest już używany. Dowiedz się więcej
  • Obraz maszyny wirtualnej użyty do wdrożenia maszyny wirtualnej nie został prawidłowo przygotowany. Dowiedz się więcej
  • Nie można uzyskać dostępu do bramy domyślnej i serwera DNS z maszyny wirtualnej gościa. Dowiedz się więcej
  • cloud init Podczas instalacji cloud init nie uruchomiono programu lub wystąpiły problemy podczas jego działania. (Tylko maszyny wirtualne z systemem Linux) Dowiedz się więcej
  • W przypadku maszyny wirtualnej z systemem Linux wdrożonej przy użyciu niestandardowego obrazu maszyny wirtualnej flagi aprowizacji w pliku /etc/waagent.conf nie są poprawne. (Tylko maszyny wirtualne z systemem Linux) Dowiedz się więcej
  • Podstawowy interfejs sieciowy dołączony do przełącznika wirtualnego z włączoną obsługą SRIOV Dowiedz się więcej

Adres IP przypisany do maszyny wirtualnej jest już używany

Opis błędu: Maszyna wirtualna została przypisana statyczny adres IP, który jest już używany, a aprowizowanie maszyny wirtualnej nie powiodło się. Ten błąd występuje, gdy adres IP jest używany w podsieci, w której wdrożono maszynę wirtualną. Podczas wdrażania maszyny wirtualnej za pośrednictwem witryny Azure Portal proces sprawdza istniejący adres IP w urządzeniu, ale nie może sprawdzić adresów IP innych usług lub maszyn wirtualnych, które również mogą znajdować się w podsieci.

Sugerowane rozwiązanie: użyj statycznego adresu IP, który nie jest używany, lub użyj dynamicznego adresu IP dostarczonego przez serwer DHCP.

Aby sprawdzić zduplikowany adres IP:

  • Uruchom następujące ping polecenia i Test-NetConnection (tnc) z dowolnego urządzenia w tej samej sieci:

    ping <IP address>
    tnc <IP address>
    tnc <IP address> -CommonTCPPort “RDP”
    

Jeśli otrzymasz odpowiedź, adres IP przypisany do nowej maszyny wirtualnej jest już używany.

Obraz maszyny wirtualnej nie jest poprawnie przygotowany

Opis błędu: Aby przygotować obraz maszyny wirtualnej do użycia na urządzeniu z procesorem GPU Usługi Azure Stack Edge Pro, musisz postępować zgodnie z określonym przepływem pracy. Musisz utworzyć maszynę wirtualną gen1 na platformie Azure, dostosować maszynę wirtualną, uogólnić dysk VHD, a następnie pobrać wirtualny dysk twardy systemu operacyjnego dla tej maszyny wirtualnej. Przygotowany obraz musi być dyskiem VHD gen1 z rozszerzeniem nazwy pliku "vhd" i stałym typem.

Aby zapoznać się z omówieniem wymagań, zobacz Tworzenie niestandardowych obrazów maszyn wirtualnych dla urządzenia z procesorem GPU Usługi Azure Stack Edge Pro. Aby uzyskać wskazówki dotyczące rozwiązywania problemów z obrazem maszyny wirtualnej, zobacz Rozwiązywanie problemów z przekazywaniem obrazów maszyn wirtualnych w procesorze GPU usługi Azure Stack Edge Pro.

Sugerowane rozwiązanie: ukończ przepływ pracy przygotowywania obrazu maszyny wirtualnej. Aby uzyskać wskazówki, zobacz jeden z następujących artykułów:

Brama, nie można uzyskać dostępu do serwera DNS z maszyny wirtualnej gościa

Opis błędu: Jeśli podczas wdrażania maszyny wirtualnej nie można uzyskać dostępu do bramy domyślnej i serwera DNS, upłynął limit czasu aprowizacji maszyny wirtualnej i wdrożenie maszyny wirtualnej zakończy się niepowodzeniem.

Sugerowane rozwiązanie: sprawdź, czy z maszyny wirtualnej można uzyskać dostęp do bramy domyślnej i serwera DNS. Następnie powtórz wdrożenie maszyny wirtualnej.

Aby sprawdzić, czy brama domyślna i serwer DNS można uzyskać z maszyny wirtualnej, wykonaj następujące kroki:

  1. Połącz się z maszyną wirtualną.

  2. Uruchom następujące polecenia:

    ping <default gateway IP address>
    ping <DNS server IP address>
    

    Aby dowiedzieć się, jak adresy IP dla bramy domyślnej i serwerów DNS, przejdź do lokalnego interfejsu użytkownika urządzenia. Wybierz interesujący Cię port i wyświetl ustawienia sieciowe.

    Zrzut ekranu przedstawiający stronę Sieć urządzenia Azure Stack Edge z wyświetlonymi ustawieniami sieci dla portu 2.

cloud init problemy (maszyny wirtualne z systemem Linux)

Opis błędu: cloud init nie został uruchomiony lub wystąpiły problemy podczas cloud init działania. cloud-init Służy do dostosowywania maszyny wirtualnej z systemem Linux podczas pierwszego rozruchu maszyny wirtualnej. Aby uzyskać więcej informacji, zobacz obsługa pakietu cloud-init dla maszyn wirtualnych na platformie Azure.

Sugerowane rozwiązania: aby znaleźć problemy, które wystąpiły podczas cloud init uruchamiania:

  1. Połącz się z maszyną wirtualną.

  2. Sprawdź, czy występują cloud init błędy w następujących plikach dziennika:

    • /var/log/cloud-init-output.log
    • /var/log/cloud-init.log
    • /var/log/waagent/log

Aby sprawdzić niektóre typowe problemy, które uniemożliwiają cloud init pomyślne uruchomienie, wykonaj następujące kroki:

  1. Upewnij się, że obraz maszyny wirtualnej jest oparty na .cloud init Uruchom następujące polecenie:

    cloud-init --version

    Polecenie powinno zwrócić numer wersji inicjowania chmury. Jeśli obraz nie cloud initjest oparty, polecenie nie zwróci informacji o wersji.

    Aby uzyskać pomoc dotyczącą cloud init opcji, uruchom następujące polecenie:

    cloud-init --help

  2. Upewnij się, że cloud init wystąpienie może zostać pomyślnie uruchomione przy użyciu źródła danych ustawionego na platformę Azure.

    Po ustawieniu źródła danych na platformę Azure wpis w dziennikach inicjowania chmury wygląda podobnie do poniższego.

    Ilustracja przedstawiająca wpis dziennika cloud-init dla obrazu maszyny wirtualnej z ustawieniem Źródło danych na platformę Azure. Tekst identyfikujący jest wyróżniony.

    Jeśli źródło danych nie jest ustawione na platformę Azure, może być konieczne poprawienie skryptu cloud init . Aby uzyskać więcej informacji, zobacz Szczegółowe informacje na temat pakietu cloud-init.

Flagi aprowizacji są niepoprawnie ustawione (maszyny wirtualne z systemem Linux)

Opis błędu: Aby pomyślnie wdrożyć maszynę wirtualną z systemem Linux na platformie Azure, aprowizacja musi być wyłączona na obrazie, a aprowizacja przy użyciu polecenia cloud init musi być włączona. Flagi aprowizacji, które ustawiają te wartości, są poprawnie skonfigurowane dla standardowych obrazów maszyn wirtualnych. Jeśli używasz niestandardowego obrazu maszyny wirtualnej, upewnij się, że są one poprawne.

Sugerowane rozwiązanie: upewnij się, że flagi aprowizacji w pliku /etc/waagent.conf mają następujące wartości:

Możliwość Wartość wymagana
Włączanie aprowizacji Provisioning.Enabled=n
Polegaj na inicjowaniu obsługi administracyjnej w chmurze Provisioning.UseCloudInit=y

Podstawowy interfejs sieciowy dołączony do przełącznika wirtualnego z włączoną obsługą SRIOV

Opis błędu: Podstawowy interfejs sieciowy dołączony do jednego głównego przełącznika wirtualnego obsługującego interfejs we/wy (SRIOV) spowodował ruch sieciowy pomijający funkcję Hyper-V, więc host nie mógł odbierać żądań DHCP z maszyny wirtualnej, co spowodowało przekroczenie limitu czasu aprowizacji.

Sugerowane rozwiązania:

  • Połącz podstawowy interfejs sieciowy maszyny wirtualnej z przełącznikiem wirtualnym bez włączania przyspieszonej sieci.

  • Na urządzeniu Azure Stack Edge Pro 1 przełączniki wirtualne utworzone na porcie 1 do portu 4 nie włączają przyspieszonej sieci. Na porcie 5 lub 6 przełączniki wirtualne domyślnie włączają przyspieszoną sieć.

  • Na urządzeniu Azure Stack Edge Pro 2 przełączniki wirtualne utworzone na porcie 1 lub 2 nie włączają przyspieszonej sieci. Na porcie 3 lub 4 przełączniki wirtualne domyślnie włączają przyspieszoną sieć.

Problemy z tworzeniem interfejsu sieciowego

Ta sekcja zawiera wskazówki dotyczące problemów, które powodują niepowodzenie tworzenia interfejsu sieciowego podczas wdrażania maszyny wirtualnej.

Limit czasu tworzenia karty sieciowej

Opis błędu: Tworzenie interfejsu sieciowego na maszynie wirtualnej nie zostało ukończone w dozwolonym przedziale czasu. Ten błąd może być spowodowany problemami z serwerem DHCP w danym środowisku.

Aby sprawdzić, czy interfejs sieciowy został utworzony pomyślnie, wykonaj następujące czynności:

  1. W witrynie Azure Portal przejdź do zasobu Usługi Azure Stack Edge dla urządzenia (przejdź do pozycji Maszyny wirtualne usług>Edge). Następnie wybierz pozycję Wdrożenia i przejdź do wdrożenia maszyny wirtualnej.

  2. Jeśli interfejs sieciowy nie został pomyślnie utworzony, zostanie wyświetlony następujący błąd.

    Zrzut ekranu przedstawiający błąd wyświetlany w witrynie Azure Portal, gdy tworzenie interfejsu sieciowego kończy się niepowodzeniem podczas wdrażania maszyny wirtualnej na urządzeniu Azure Stack Edge.

Sugerowane rozwiązanie: ponownie utwórz maszynę wirtualną i przypisz jej statyczny adres IP.

Problemy z tworzeniem maszyny wirtualnej

W tej sekcji opisano typowe problemy występujące podczas tworzenia maszyny wirtualnej.

Tworzenie maszyny wirtualnej kończy się niepowodzeniem

Opis błędu: Jeśli masz obraz witryny Marketplace utworzony za pomocą usługi Azure Stack Edge wcześniej niż 2403, a następnie utwórz maszynę wirtualną na podstawie istniejącego obrazu z witryny Marketplace, tworzenie maszyny wirtualnej zakończy się niepowodzeniem, ponieważ przeglądarka Azure Stack Edge 2407 zmieniła ścieżkę pobierania obrazu witryny Marketplace.

Sugerowane rozwiązanie: wykonaj następujące kroki, aby usunąć istniejący obraz witryny Marketplace, a następnie utworzyć nowy obraz witryny Marketplace z witryny Azure Portal.

  1. W witrynie Azure Portal usuń istniejący obraz witryny Marketplace.

    1. Wyświetl listę pozyskiwania i zadanie pozyskiwania obiektów blobPobierz dla obrazu witryny Marketplace. Wykonaj następujące kroki, aby nawiązać połączenie z usługą Azure Resource Manager.

      Uruchom następujący skrypt, aby wyświetlić listę zadań pozyskiwania:

      Określ identyfikator subskrypcji w następującym identyfikatorze URI:

      $uri 1 = "https://management.appliance name. Domena/subskrypcje DNS/sid/providers/Microsoft.AzureBridge/locations/DBELocal/ingestionJobs/?api-version=2022-03-01"

      Function Get-AzCachedAccessToken() 
      {
      $ErrorActionPreference = 'Stop' 
      $azureRmProfile = [Microsoft.Azure.Commands.Common.Authentication.Abstractions.AzureRmProfileProvider]::Instance.Profile 
      $currentAzureContext = Get-AzContext 
      $profileClient = New-Object Microsoft.Azure.Commands.ResourceManager.Common.RMProfileClient($azureRmProfile) 
      Write-Debug ("Getting access token for tenant" + $currentAzureContext.Subscription.TenantId) 
      $token = $profileClient.AcquireAccessToken($currentAzureContext.Subscription.TenantId) 
      $token.AccessToken 
      } 
      
      $token = Get-AzCachedAccessToken 
      $headers = @{Authorization = "Bearer $token"; "Content-Type" = "application/json" } 
      $v = Invoke-RestMethod -Method Get -Uri $uri1 -Headers $headers 
      v.value
      
    2. Znajdź nazwę zadania pozyskiwania = Marketplace image sku name i rodzaj = BlobDownload.

      Przykład: nazwa zadania pozyskiwania = Ubuntu-18-04 i rodzaj = BlobDownload.

      Zrzut ekranu przedstawiający przykładową składnię do znalezienia nazwy zadania pozyskiwania.

  2. Jeśli zadanie pozyskiwania zostanie znalezione w kroku 1, wykonaj następujące kroki, aby usunąć zadanie pozyskiwania i usunąć obraz. Na przykład nazwa zadania pozyskiwania w powyższym przykładzie to ubuntu-18-04. Subscription ID Ponadto w przykładzie można znaleźć nazwę i Resource group nazwę.

    $uri2 = "https://management.<appliance name>.<DNS domain>/subscriptions/sid/resourceGroups/rgname/providers/Microsoft.AzureBridge/locations/dbelocal/ingestionJobs/<ingestion job name>?api-version=2018-06-01" 
    
    Invoke-RestMethod -Method DELETE -Uri $uri2 -Headers $headers
    
  3. Wykonaj kroki, aby utworzyć nowy obraz maszyny wirtualnej z witryny Azure Marketplace.

Za mało pamięci do utworzenia maszyny wirtualnej

Opis błędu: Gdy tworzenie maszyny wirtualnej zakończy się niepowodzeniem z powodu niewystarczającej ilości pamięci, zostanie wyświetlony następujący błąd.

Zrzut ekranu przedstawiający błąd wyświetlany w witrynie Azure Portal, gdy tworzenie maszyny wirtualnej kończy się niepowodzeniem na urządzeniu Azure Stack Edge.

Sugerowane rozwiązanie: Sprawdź dostępną pamięć na urządzeniu i wybierz odpowiednio rozmiar maszyny wirtualnej. Aby uzyskać więcej informacji, zobacz Obsługiwane rozmiary maszyn wirtualnych w usłudze Azure Stack Edge.

Pamięć dostępna do wdrożenia maszyny wirtualnej jest ograniczona przez kilka czynników:

  • Ilość dostępnej pamięci na urządzeniu. Aby uzyskać więcej informacji, zobacz specyfikacje obliczeniowe i specyfikacje pamięci w specyfikacji technicznej procesora GPU usługi Azure Stack Edge Pro oraz specyfikacje techniczne usługi Azure Stack Edge Mini R.

  • Jeśli platforma Kubernetes jest włączona, pamięć obliczeniowa wymagana dla platformy Kubernetes i aplikacji w klastrze Kubernetes.

  • Obciążenie dla każdej maszyny wirtualnej w funkcji Hyper-V.

Sugerowane rozwiązania:

  • Użyj rozmiaru maszyny wirtualnej, który wymaga mniejszej ilości pamięci.
  • Zatrzymaj wszystkie maszyny wirtualne, które nie są używane z portalu przed wdrożeniem nowej maszyny wirtualnej.
  • Usuń wszystkie maszyny wirtualne, które nie są już używane.

Niewystarczająca liczba procesorów GPU do utworzenia maszyny wirtualnej z procesorem GPU

Jeśli spróbujesz wdrożyć maszynę wirtualną na urządzeniu z procesorem GPU, które ma już włączoną usługę Kubernetes, nie są dostępne żadne procesory GPU, a aprowizowanie maszyn wirtualnych kończy się niepowodzeniem z powodu następującego błędu:

Zrzut ekranu przedstawiający błąd wyświetlany w witrynie Azure Portal podczas tworzenia maszyny wirtualnej z procesorem GPU kończy się niepowodzeniem z powodu braku dostępnych procesorów GPU na urządzeniu Azure Stack Edge.

Możliwe przyczyny: jeśli platforma Kubernetes jest włączona przed utworzeniem maszyny wirtualnej, platforma Kubernetes używa wszystkich dostępnych procesorów GPU i nie będzie można utworzyć żadnych maszyn wirtualnych o rozmiarze procesora GPU. Możesz utworzyć dowolną liczbę maszyn wirtualnych o rozmiarze procesora GPU jako liczbę dostępnych procesorów GPU. Urządzenie Azure Stack Edge może być wyposażone w 1 lub 2 procesory GPU.

Sugerowane rozwiązanie: aby uzyskać opcje wdrażania maszyn wirtualnych na urządzeniu 1-GPU lub 2-GPU ze skonfigurowanym rozwiązaniem Kubernetes, zobacz Maszyny wirtualne procesora GPU i platforma Kubernetes.

Następne kroki