Naprawianie węzła w środowisku lokalnym platformy Azure w wersji 23H2
Dotyczy: Azure Local, wersja 23H2
W tym artykule opisano sposób naprawiania węzła w wystąpieniu lokalnym platformy Azure. W tym artykule każdy serwer jest określany jako węzeł.
Informacje o węzłach naprawy
Azure Local to hiperkonwergentny system, który umożliwia naprawę węzłów z istniejących systemów. W przypadku awarii sprzętu może być konieczne naprawienie węzła w systemie.
Przed naprawą węzła upewnij się, że należy sprawdzić dostawcę rozwiązania, które składniki w węźle są jednostkami zastępczymi pól (FRU), które można zastąpić samodzielnie i które składniki wymagają od technika wymiany.
Części, które obsługują wymianę gorącą, zwykle nie wymagają ponownego obrazu węzła, w przeciwieństwie do składników, które nie można zamienić na gorąco, takich jak płyty główne. Skontaktuj się z producentem sprzętu, aby określić, które zamiany składników wymagają odtworzenia obrazu węzła. Aby uzyskać więcej informacji, zobacz Zastępowanie składników.
Przepływ pracy naprawy węzła
Poniższy diagram przepływu przedstawia ogólny proces naprawy węzła.
*Węzeł może nie znajdować się w stanie, w którym zamknięcie jest możliwe lub konieczne*
Aby naprawić istniejący węzeł, wykonaj następujące ogólne kroki:
Jeśli to możliwe, zamknij węzeł, który chcesz naprawić. W zależności od stanu węzła zamknięcie może być niemożliwe lub konieczne.
Z obrazu węzła, który należy naprawić.
Uruchom operację naprawy węzła. System operacyjny, sterowniki i oprogramowanie układowe usługi Azure Stack HCI są aktualizowane w ramach operacji naprawy.
Magazyn jest automatycznie ponownie zrównoważony w węźle z obrazem. Ponowne równoważenie magazynu to zadanie o niskim priorytcie, które może być uruchamiane przez wiele dni w zależności od liczby węzłów i używanego magazynu.
Obsługiwane scenariusze
Naprawianie węzła powoduje ponowne odtworzenie węzła i przywrócenie go do systemu przy użyciu poprzedniej nazwy i konfiguracji.
Naprawienie pojedynczego węzła powoduje ponowne wdrożenie z opcją utrwalania woluminów danych. Tylko wolumin systemowy jest usuwany i nowo aprowizowany podczas wdrażania.
Ważne
Upewnij się, że zawsze masz kopie zapasowe dla obciążeń i nie polegaj tylko na odporności systemu. Jest to szczególnie krytyczne w scenariuszach z jednym węzłem.
Ustawienia odporności
W tej wersji dla operacji naprawy węzła określone zadania nie są wykonywane na woluminach obciążeń utworzonych po wdrożeniu. W przypadku operacji naprawy węzła tylko wymagane woluminy infrastruktury i woluminy obciążenia są przywracane i udostępniane jako udostępnione woluminy klastra (CSV).
Inne woluminy obciążenia utworzone po wdrożeniu są nadal zachowywane i można je odnaleźć, uruchamiając Get-VirtualDisk
polecenie cmdlet . Należy ręcznie odblokować wolumin (jeśli wolumin ma włączoną funkcję BitLocker) i utworzyć wolumin CSV (w razie potrzeby).
Wymagania sprzętowe
Podczas naprawiania węzła system weryfikuje sprzęt nowego węzła przychodzącego i zapewnia, że węzeł spełnia wymagania sprzętowe przed dodaniu go do systemu.
Składnik | Sprawdzanie zgodności |
---|---|
Procesor CPU | Sprawdź, czy nowy węzeł ma taką samą liczbę rdzeni procesora CPU lub więcej. Jeśli rdzenie procesora CPU w węźle przychodzącym nie spełniają tego wymagania, zostanie wyświetlone ostrzeżenie. Operacja jest jednak dozwolona. |
Pamięć | Sprawdź, czy nowy węzeł ma zainstalowaną taką samą ilość pamięci lub więcej. Jeśli pamięć w węźle przychodzącym nie spełnia tego wymagania, zostanie wyświetlone ostrzeżenie. Operacja jest jednak dozwolona. |
Dyski | Sprawdź, czy nowy węzeł ma taką samą liczbę dysków danych dostępnych dla Miejsca do magazynowania Direct. Jeśli liczba dysków w węźle przychodzącym nie spełnia tego wymagania, zostanie zgłoszony błąd i operacja zostanie zablokowana. |
Wymiana węzła
Możesz zastąpić cały węzeł:
- W przypadku nowego węzła, który ma inny numer seryjny w porównaniu ze starym węzłem.
- Po ponownym wyświetleniu obrazu bieżącego węzła.
Podczas zamiany węzła są obsługiwane następujące scenariusze:
Node | Disk | Obsługiwane |
---|---|---|
Nowy węzeł | Nowe dyski | Tak |
Nowy węzeł | Bieżące dyski | Tak |
Bieżący węzeł (reimaged) | Bieżące dyski sformatowane ** | Nie. |
Bieżący węzeł (reimaged) | Nowe dyski | Tak |
Bieżący węzeł (reimaged) | Bieżące dyski | Tak |
**Dyski używane przez Miejsca do magazynowania Direct wymagają odpowiedniego czyszczenia. Ponowne formatowanie nie jest wystarczające. Zobacz, jak czyścić dyski.
Ważne
Jeśli zastąpisz składnik podczas naprawy węzła, nie musisz zastępować ani resetować dysków danych. Jeśli zastąpisz dysk lub zresetujesz go, dysk nie zostanie rozpoznany po dołączeniu węzła do systemu.
Wymiana składników
W wystąpieniu lokalnym platformy Azure składniki niezmienialne obejmują następujące elementy:
- Kontroler zarządzania płytą główną/płytą główną (BMC)/karta wideo
- Kontroler dysku/karta magistrali hosta (HBA)/backplace
- Karta sieciowa
- Jednostka przetwarzania grafiki
- Dyski danych (dyski, które nie obsługują wymiany gorącej, na przykład karty dodatku PCI-e)
Rzeczywiste kroki wymiany składników, które nie można zamienić na gorąco, różnią się w zależności od dostawcy sprzętu producenta oryginalnego sprzętu (OEM). Zapoznaj się z dokumentacją dostawcy OEM, jeśli wymagana jest naprawa węzła dla składników, które nie można zamienić na gorąco.
Wymagania wstępne
Przed naprawą węzła należy upewnić się, że:
AzureStackLCMUser
jest aktywny w usłudze Active Directory. Aby uzyskać więcej informacji, zobacz Przygotowywanie usługi Active Directory.- Zalogował się jako
AzureStackLCMUser
lub inny użytkownik z równoważnymi uprawnieniami. - Poświadczenia dla elementu
AzureStackLCMUser
nie zostały zmienione.
W razie potrzeby przejmij węzeł zidentyfikowany do naprawy w trybie offline. Wykonaj kroki opisane tutaj:
Naprawianie węzła
W tej sekcji opisano, jak naprawić węzeł przy użyciu programu PowerShell, monitorować stan Repair-Server
operacji i rozwiązywać problemy, jeśli występują jakieś problemy.
Upewnij się, że sprawdzono wymagania wstępne.
Wykonaj następujące kroki w węźle, który próbujesz naprawić.
Zainstaluj system operacyjny i wymagane sterowniki. Wykonaj kroki opisane w temacie Instalowanie systemu operacyjnego Azure Stack HCI w wersji 23H2.
Uwaga
W przypadku wdrożenia wystąpienia lokalnego platformy Azure przy użyciu niestandardowych adresów IP magazynu należy ręcznie przypisać adresy IP do kart sieciowych magazynu po naprawieniu węzła.
Zarejestruj węzeł w usłudze Arc. Wykonaj kroki opisane w temacie Rejestrowanie w usłudze Arc i konfigurowanie uprawnień.
Uwaga
Aby zarejestrować się w usłudze Arc, należy użyć tych samych parametrów co istniejące węzły. Na przykład: Nazwa grupy zasobów, Region, Subskrypcja i Dzierżawa.
Przypisz następujące uprawnienia do naprawionego węzła:
- Rola Zarządzanie urządzeniami lokalnej platformy Azure
- Użytkownik wpisów tajnych usługi Key Vault Aby uzyskać więcej informacji, zobacz Przypisywanie uprawnień do węzła.
Wykonaj następujące kroki w innym węźle, który jest członkiem tego samego wystąpienia lokalnego platformy Azure.
Przed dodaniem węzła upewnij się, że został zaktualizowany token uwierzytelniania. Uruchom następujące polecenie:
Update-AuthenticationToken
Jeśli korzystasz z wersji wcześniejszej niż 2405.3, należy uruchomić następujące polecenie, aby wyczyścić pliki powodujące konflikt:
Get-ChildItem -Path "$env:SystemDrive\NugetStore" -Exclude Microsoft.AzureStack.Solution.LCMControllerWinService*,Microsoft.AzureStack.Role.Deployment.Service* | Remove-Item -Recurse -Force
Zaloguj się do węzła, który jest już członkiem systemu, przy użyciu poświadczeń użytkownika domeny podanych podczas wdrażania systemu. Uruchom następujące polecenie, aby naprawić węzeł przychodzący:
$Cred = Get-Credential Repair-Server -Name "<Name of the new node>" -LocalAdminCredential $Cred
Uwaga
Nazwa węzła musi być nazwą NetBIOS.
Zanotuj identyfikator operacji jako dane wyjściowe polecenia
Repair-Server
. Ten krok będzie używany później do monitorowania postępuRepair-Server
operacji.
Monitorowanie postępu operacji
Aby monitorować postęp operacji dodawania węzła, wykonaj następujące kroki:
Uruchom następujące polecenie cmdlet i podaj identyfikator operacji z poprzedniego kroku.
$ID = "<Operation ID>" Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID
Po zakończeniu operacji zadanie ponownego równoważenia magazynu w tle będzie nadal działać. Poczekaj na zakończenie zadania ponownego równoważenia magazynu. Aby sprawdzić postęp tego zadania ponownego równoważenia magazynu, użyj następującego polecenia cmdlet:
Get-VirtualDisk|Get-StorageJob
Jeśli zadanie ponownego równoważenia magazynu zostanie ukończone, polecenie cmdlet nie zwróci danych wyjściowych.
Scenariusze odzyskiwania
Poniższe scenariusze odzyskiwania i zalecane kroki ograniczania ryzyka są tabelaryzowane na potrzeby naprawiania węzła:
Opis scenariusza | Czynności zapobiegawcze | Obsługiwane? |
---|---|---|
Operacja naprawy węzła nie powiodła się. | Aby ukończyć operację, zbadaj błąd. Uruchom ponownie operację, która zakończyła się niepowodzeniem przy użyciu polecenia Add-Server -Rerun . |
Tak |
Operacja naprawy węzła powiodła się częściowo, ale musiała rozpocząć od nowej instalacji systemu operacyjnego. | W tym scenariuszu orkiestrator (znany również jako Menedżer cyklu życia) zaktualizował już swój magazyn wiedzy o nowym węźle. Użyj scenariusza naprawy węzła. | Tak |
Rozwiązywanie problemów
Jeśli wystąpią błędy lub błędy podczas naprawiania węzła, możesz przechwycić dane wyjściowe błędów w pliku dziennika.
Zaloguj się przy użyciu poświadczeń użytkownika domeny podanych podczas wdrażania systemu. Przechwyć problem w plikach dziennika.
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
Aby ponownie uruchomić operację, która zakończyła się niepowodzeniem, użyj następującego polecenia cmdlet:
Repair-Server -Rerun
Następne kroki
Dowiedz się więcej o sposobie dodawania węzła.