Rozwiązywanie problemów z wdrażaniem maszyn wirtualnych w procesorze GPU Pro w usłudze Azure Stack Edge
DOTYCZY: Azure Stack Edge Pro — GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R Azure Stack Edge Mini R
W tym artykule opisano sposób rozwiązywania typowych błędów podczas wdrażania maszyn wirtualnych na urządzeniu z procesorem GPU Usługi Azure Stack Edge Pro. Ten artykuł zawiera wskazówki dotyczące badania najczęstszych problemów, które powodują przekroczenie limitu czasu aprowizacji maszyny wirtualnej i problemy podczas tworzenia interfejsu sieciowego i maszyny wirtualnej.
Aby zdiagnozować wszelkie niepowodzenia aprowizacji maszyny wirtualnej, przejrzyj dzienniki gościa dla maszyny wirtualnej, która zakończyła się niepowodzeniem. Aby uzyskać instrukcje dotyczące zbierania dzienników gościa maszyny wirtualnej i dołączania ich do pakietu pomocy technicznej, zobacz Zbieranie dzienników gościa dla maszyn wirtualnych w usłudze Azure Stack Edge Pro.
Aby uzyskać wskazówki dotyczące problemów uniemożliwiających pomyślne przekazanie obrazu maszyny wirtualnej przed wdrożeniem maszyny wirtualnej, zobacz Rozwiązywanie problemów z przekazywaniem obrazów maszyny wirtualnej w procesorze GPU usługi Azure Stack Edge Pro.
Limit czasu aprowizacji maszyny wirtualnej
Ta sekcja zawiera rozwiązywanie problemów z najczęstszymi przyczynami przekroczenia limitu czasu aprowizacji maszyny wirtualnej.
Po upłynął limit czasu aprowizacji maszyny wirtualnej, zostanie wyświetlony następujący błąd:
Poniżej przedstawiono najważniejsze przyczyny przekroczenia limitu czasu aprowizacji maszyn wirtualnych:
- Adres IP przypisany do maszyny wirtualnej jest już używany. Dowiedz się więcej
- Obraz maszyny wirtualnej użyty do wdrożenia maszyny wirtualnej nie został prawidłowo przygotowany. Dowiedz się więcej
- Nie można uzyskać dostępu do bramy domyślnej i serwera DNS z maszyny wirtualnej gościa. Dowiedz się więcej
cloud init
Podczas instalacjicloud init
nie uruchomiono programu lub wystąpiły problemy podczas jego działania. (Tylko maszyny wirtualne z systemem Linux) Dowiedz się więcej- W przypadku maszyny wirtualnej z systemem Linux wdrożonej przy użyciu niestandardowego obrazu maszyny wirtualnej flagi aprowizacji w pliku /etc/waagent.conf nie są poprawne. (Tylko maszyny wirtualne z systemem Linux) Dowiedz się więcej
- Podstawowy interfejs sieciowy dołączony do przełącznika wirtualnego z włączoną obsługą SRIOV Dowiedz się więcej
Adres IP przypisany do maszyny wirtualnej jest już używany
Opis błędu: Maszyna wirtualna została przypisana statyczny adres IP, który jest już używany, a aprowizowanie maszyny wirtualnej nie powiodło się. Ten błąd występuje, gdy adres IP jest używany w podsieci, w której wdrożono maszynę wirtualną. Podczas wdrażania maszyny wirtualnej za pośrednictwem witryny Azure Portal proces sprawdza istniejący adres IP w urządzeniu, ale nie może sprawdzić adresów IP innych usług lub maszyn wirtualnych, które również mogą znajdować się w podsieci.
Sugerowane rozwiązanie: użyj statycznego adresu IP, który nie jest używany, lub użyj dynamicznego adresu IP dostarczonego przez serwer DHCP.
Aby sprawdzić zduplikowany adres IP:
Uruchom następujące
ping
polecenia i Test-NetConnection (tnc
) z dowolnego urządzenia w tej samej sieci:ping <IP address> tnc <IP address> tnc <IP address> -CommonTCPPort “RDP”
Jeśli otrzymasz odpowiedź, adres IP przypisany do nowej maszyny wirtualnej jest już używany.
Obraz maszyny wirtualnej nie jest poprawnie przygotowany
Opis błędu: Aby przygotować obraz maszyny wirtualnej do użycia na urządzeniu z procesorem GPU Usługi Azure Stack Edge Pro, musisz postępować zgodnie z określonym przepływem pracy. Musisz utworzyć maszynę wirtualną gen1 na platformie Azure, dostosować maszynę wirtualną, uogólnić dysk VHD, a następnie pobrać wirtualny dysk twardy systemu operacyjnego dla tej maszyny wirtualnej. Przygotowany obraz musi być dyskiem VHD gen1 z rozszerzeniem nazwy pliku "vhd" i stałym typem.
Aby zapoznać się z omówieniem wymagań, zobacz Tworzenie niestandardowych obrazów maszyn wirtualnych dla urządzenia z procesorem GPU Usługi Azure Stack Edge Pro. Aby uzyskać wskazówki dotyczące rozwiązywania problemów z obrazem maszyny wirtualnej, zobacz Rozwiązywanie problemów z przekazywaniem obrazów maszyn wirtualnych w procesorze GPU usługi Azure Stack Edge Pro.
Sugerowane rozwiązanie: ukończ przepływ pracy przygotowywania obrazu maszyny wirtualnej. Aby uzyskać wskazówki, zobacz jeden z następujących artykułów:
- Niestandardowe przepływy pracy obrazów maszyn wirtualnych dla maszyn wirtualnych z systemem Windows i Linux
- Przygotowywanie uogólnionego obrazu z wirtualnego dysku twardego systemu Windows
- Przygotowywanie uogólnionego obrazu przy użyciu obrazu ISO
- Wdrażanie maszyn wirtualnych przy użyciu wyspecjalizowanego obrazu
Brama, nie można uzyskać dostępu do serwera DNS z maszyny wirtualnej gościa
Opis błędu: Jeśli podczas wdrażania maszyny wirtualnej nie można uzyskać dostępu do bramy domyślnej i serwera DNS, upłynął limit czasu aprowizacji maszyny wirtualnej i wdrożenie maszyny wirtualnej zakończy się niepowodzeniem.
Sugerowane rozwiązanie: sprawdź, czy z maszyny wirtualnej można uzyskać dostęp do bramy domyślnej i serwera DNS. Następnie powtórz wdrożenie maszyny wirtualnej.
Aby sprawdzić, czy brama domyślna i serwer DNS można uzyskać z maszyny wirtualnej, wykonaj następujące kroki:
Uruchom następujące polecenia:
ping <default gateway IP address> ping <DNS server IP address>
Aby dowiedzieć się, jak adresy IP dla bramy domyślnej i serwerów DNS, przejdź do lokalnego interfejsu użytkownika urządzenia. Wybierz interesujący Cię port i wyświetl ustawienia sieciowe.
cloud init
problemy (maszyny wirtualne z systemem Linux)
Opis błędu: cloud init
nie został uruchomiony lub wystąpiły problemy podczas cloud init
działania. cloud-init
Służy do dostosowywania maszyny wirtualnej z systemem Linux podczas pierwszego rozruchu maszyny wirtualnej. Aby uzyskać więcej informacji, zobacz obsługa pakietu cloud-init dla maszyn wirtualnych na platformie Azure.
Sugerowane rozwiązania: aby znaleźć problemy, które wystąpiły podczas cloud init
uruchamiania:
Sprawdź, czy występują
cloud init
błędy w następujących plikach dziennika:- /var/log/cloud-init-output.log
- /var/log/cloud-init.log
- /var/log/waagent/log
Aby sprawdzić niektóre typowe problemy, które uniemożliwiają cloud init
pomyślne uruchomienie, wykonaj następujące kroki:
Upewnij się, że obraz maszyny wirtualnej jest oparty na .
cloud init
Uruchom następujące polecenie:cloud-init --version
Polecenie powinno zwrócić numer wersji inicjowania chmury. Jeśli obraz nie
cloud init
jest oparty, polecenie nie zwróci informacji o wersji.Aby uzyskać pomoc dotyczącą
cloud init
opcji, uruchom następujące polecenie:cloud-init --help
Upewnij się, że
cloud init
wystąpienie może zostać pomyślnie uruchomione przy użyciu źródła danych ustawionego na platformę Azure.Po ustawieniu źródła danych na platformę Azure wpis w dziennikach inicjowania chmury wygląda podobnie do poniższego.
Jeśli źródło danych nie jest ustawione na platformę Azure, może być konieczne poprawienie skryptu
cloud init
. Aby uzyskać więcej informacji, zobacz Szczegółowe informacje na temat pakietu cloud-init.
Flagi aprowizacji są niepoprawnie ustawione (maszyny wirtualne z systemem Linux)
Opis błędu: Aby pomyślnie wdrożyć maszynę wirtualną z systemem Linux na platformie Azure, aprowizacja musi być wyłączona na obrazie, a aprowizacja przy użyciu polecenia cloud init
musi być włączona. Flagi aprowizacji, które ustawiają te wartości, są poprawnie skonfigurowane dla standardowych obrazów maszyn wirtualnych. Jeśli używasz niestandardowego obrazu maszyny wirtualnej, upewnij się, że są one poprawne.
Sugerowane rozwiązanie: upewnij się, że flagi aprowizacji w pliku /etc/waagent.conf mają następujące wartości:
Możliwość | Wartość wymagana |
---|---|
Włączanie aprowizacji | Provisioning.Enabled=n |
Polegaj na inicjowaniu obsługi administracyjnej w chmurze | Provisioning.UseCloudInit=y |
Podstawowy interfejs sieciowy dołączony do przełącznika wirtualnego z włączoną obsługą SRIOV
Opis błędu: Podstawowy interfejs sieciowy dołączony do jednego głównego przełącznika wirtualnego obsługującego interfejs we/wy (SRIOV) spowodował ruch sieciowy pomijający funkcję Hyper-V, więc host nie mógł odbierać żądań DHCP z maszyny wirtualnej, co spowodowało przekroczenie limitu czasu aprowizacji.
Sugerowane rozwiązania:
Połącz podstawowy interfejs sieciowy maszyny wirtualnej z przełącznikiem wirtualnym bez włączania przyspieszonej sieci.
Na urządzeniu Azure Stack Edge Pro 1 przełączniki wirtualne utworzone na porcie 1 do portu 4 nie włączają przyspieszonej sieci. Na porcie 5 lub 6 przełączniki wirtualne domyślnie włączają przyspieszoną sieć.
Na urządzeniu Azure Stack Edge Pro 2 przełączniki wirtualne utworzone na porcie 1 lub 2 nie włączają przyspieszonej sieci. Na porcie 3 lub 4 przełączniki wirtualne domyślnie włączają przyspieszoną sieć.
Problemy z tworzeniem interfejsu sieciowego
Ta sekcja zawiera wskazówki dotyczące problemów, które powodują niepowodzenie tworzenia interfejsu sieciowego podczas wdrażania maszyny wirtualnej.
Limit czasu tworzenia karty sieciowej
Opis błędu: Tworzenie interfejsu sieciowego na maszynie wirtualnej nie zostało ukończone w dozwolonym przedziale czasu. Ten błąd może być spowodowany problemami z serwerem DHCP w danym środowisku.
Aby sprawdzić, czy interfejs sieciowy został utworzony pomyślnie, wykonaj następujące czynności:
W witrynie Azure Portal przejdź do zasobu Usługi Azure Stack Edge dla urządzenia (przejdź do pozycji Maszyny wirtualne usług>Edge). Następnie wybierz pozycję Wdrożenia i przejdź do wdrożenia maszyny wirtualnej.
Jeśli interfejs sieciowy nie został pomyślnie utworzony, zostanie wyświetlony następujący błąd.
Sugerowane rozwiązanie: ponownie utwórz maszynę wirtualną i przypisz jej statyczny adres IP.
Problemy z tworzeniem maszyny wirtualnej
W tej sekcji opisano typowe problemy występujące podczas tworzenia maszyny wirtualnej.
Tworzenie maszyny wirtualnej kończy się niepowodzeniem
Opis błędu: Jeśli masz obraz witryny Marketplace utworzony za pomocą usługi Azure Stack Edge wcześniej niż 2403, a następnie utwórz maszynę wirtualną na podstawie istniejącego obrazu z witryny Marketplace, tworzenie maszyny wirtualnej zakończy się niepowodzeniem, ponieważ przeglądarka Azure Stack Edge 2407 zmieniła ścieżkę pobierania obrazu witryny Marketplace.
Sugerowane rozwiązanie: wykonaj następujące kroki, aby usunąć istniejący obraz witryny Marketplace, a następnie utworzyć nowy obraz witryny Marketplace z witryny Azure Portal.
W witrynie Azure Portal usuń istniejący obraz witryny Marketplace.
Wyświetl listę pozyskiwania i zadanie pozyskiwania obiektów blobPobierz dla obrazu witryny Marketplace. Wykonaj następujące kroki, aby nawiązać połączenie z usługą Azure Resource Manager.
Uruchom następujący skrypt, aby wyświetlić listę zadań pozyskiwania:
Określ identyfikator subskrypcji w następującym identyfikatorze URI:
$uri 1 = "https://management.appliance name. Domena/subskrypcje DNS/sid/providers/Microsoft.AzureBridge/locations/DBELocal/ingestionJobs/?api-version=2022-03-01"
Function Get-AzCachedAccessToken() { $ErrorActionPreference = 'Stop' $azureRmProfile = [Microsoft.Azure.Commands.Common.Authentication.Abstractions.AzureRmProfileProvider]::Instance.Profile $currentAzureContext = Get-AzContext $profileClient = New-Object Microsoft.Azure.Commands.ResourceManager.Common.RMProfileClient($azureRmProfile) Write-Debug ("Getting access token for tenant" + $currentAzureContext.Subscription.TenantId) $token = $profileClient.AcquireAccessToken($currentAzureContext.Subscription.TenantId) $token.AccessToken } $token = Get-AzCachedAccessToken $headers = @{Authorization = "Bearer $token"; "Content-Type" = "application/json" } $v = Invoke-RestMethod -Method Get -Uri $uri1 -Headers $headers v.value
Znajdź nazwę zadania pozyskiwania =
Marketplace image sku name
i rodzaj =BlobDownload
.Przykład: nazwa zadania pozyskiwania =
Ubuntu-18-04
i rodzaj =BlobDownload
.
Jeśli zadanie pozyskiwania zostanie znalezione w kroku 1, wykonaj następujące kroki, aby usunąć zadanie pozyskiwania i usunąć obraz. Na przykład nazwa zadania pozyskiwania w powyższym przykładzie to
ubuntu-18-04
.Subscription ID
Ponadto w przykładzie można znaleźć nazwę iResource group
nazwę.$uri2 = "https://management.<appliance name>.<DNS domain>/subscriptions/sid/resourceGroups/rgname/providers/Microsoft.AzureBridge/locations/dbelocal/ingestionJobs/<ingestion job name>?api-version=2018-06-01"
Invoke-RestMethod -Method DELETE -Uri $uri2 -Headers $headers
Wykonaj kroki, aby utworzyć nowy obraz maszyny wirtualnej z witryny Azure Marketplace.
Za mało pamięci do utworzenia maszyny wirtualnej
Opis błędu: Gdy tworzenie maszyny wirtualnej zakończy się niepowodzeniem z powodu niewystarczającej ilości pamięci, zostanie wyświetlony następujący błąd.
Sugerowane rozwiązanie: Sprawdź dostępną pamięć na urządzeniu i wybierz odpowiednio rozmiar maszyny wirtualnej. Aby uzyskać więcej informacji, zobacz Obsługiwane rozmiary maszyn wirtualnych w usłudze Azure Stack Edge.
Pamięć dostępna do wdrożenia maszyny wirtualnej jest ograniczona przez kilka czynników:
Ilość dostępnej pamięci na urządzeniu. Aby uzyskać więcej informacji, zobacz specyfikacje obliczeniowe i specyfikacje pamięci w specyfikacji technicznej procesora GPU usługi Azure Stack Edge Pro oraz specyfikacje techniczne usługi Azure Stack Edge Mini R.
Jeśli platforma Kubernetes jest włączona, pamięć obliczeniowa wymagana dla platformy Kubernetes i aplikacji w klastrze Kubernetes.
Obciążenie dla każdej maszyny wirtualnej w funkcji Hyper-V.
Sugerowane rozwiązania:
- Użyj rozmiaru maszyny wirtualnej, który wymaga mniejszej ilości pamięci.
- Zatrzymaj wszystkie maszyny wirtualne, które nie są używane z portalu przed wdrożeniem nowej maszyny wirtualnej.
- Usuń wszystkie maszyny wirtualne, które nie są już używane.
Niewystarczająca liczba procesorów GPU do utworzenia maszyny wirtualnej z procesorem GPU
Jeśli spróbujesz wdrożyć maszynę wirtualną na urządzeniu z procesorem GPU, które ma już włączoną usługę Kubernetes, nie są dostępne żadne procesory GPU, a aprowizowanie maszyn wirtualnych kończy się niepowodzeniem z powodu następującego błędu:
Możliwe przyczyny: jeśli platforma Kubernetes jest włączona przed utworzeniem maszyny wirtualnej, platforma Kubernetes używa wszystkich dostępnych procesorów GPU i nie będzie można utworzyć żadnych maszyn wirtualnych o rozmiarze procesora GPU. Możesz utworzyć dowolną liczbę maszyn wirtualnych o rozmiarze procesora GPU jako liczbę dostępnych procesorów GPU. Urządzenie Azure Stack Edge może być wyposażone w 1 lub 2 procesory GPU.
Sugerowane rozwiązanie: aby uzyskać opcje wdrażania maszyn wirtualnych na urządzeniu 1-GPU lub 2-GPU ze skonfigurowanym rozwiązaniem Kubernetes, zobacz Maszyny wirtualne procesora GPU i platforma Kubernetes.