Naprawianie węzła w środowisku lokalnym platformy Azure
Dotyczy: Azure Local 2311.2 i nowsze
W tym artykule opisano sposób naprawiania węzła w lokalnej instancji platformy Azure. W tym artykule każdy serwer jest określany jako węzeł.
Informacje o węzłach naprawy
Azure Local to hiperkonwergentny system, który umożliwia naprawę węzłów z istniejących systemów. W przypadku awarii sprzętu może być konieczne naprawienie węzła w systemie.
Przed naprawą węzła upewnij się, że skonsultujesz się z dostawcą rozwiązania, które składniki w węźle są jednostkami wymienialnymi na miejscu (FRU), które możesz wymienić samodzielnie, a które wymagają wymiany przez technika.
Części, które obsługują wymianę gorącą, zwykle nie wymagają ponownego obrazu węzła, w przeciwieństwie do składników, które nie można zamienić na gorąco, takich jak płyty główne. Skontaktuj się z producentem sprzętu, aby określić, które zamiany składników wymagają odtworzenia obrazu węzła. Aby uzyskać więcej informacji, zobacz Zastępowanie składników.
Przepływ pracy węzła naprawy
Poniższy diagram przepływu przedstawia ogólny proces naprawy węzła.
Węzeł może nie znajdować się w stanie, gdzie zamknięcie jest możliwe lub konieczne.
Aby naprawić istniejący węzeł, wykonaj następujące ogólne kroki:
Jeśli to możliwe, zamknij węzeł, który chcesz naprawić. W zależności od stanu węzła zamknięcie może być niemożliwe lub konieczne.
Z obrazu węzła, który należy naprawić.
Uruchom operację naprawy węzła. System operacyjny, sterowniki i oprogramowanie układowe usługi Azure Stack HCI są aktualizowane w ramach operacji naprawy.
Magazyn jest automatycznie zrównoważony na przywróconym węźle. Ponowne równoważenie magazynu to zadanie o niskim priorytcie, które może być uruchamiane przez wiele dni w zależności od liczby węzłów i używanego magazynu.
Obsługiwane scenariusze
Naprawa węzła powoduje ponowne obrazowanie węzła i przywrócenie go do systemu z poprzednią nazwą i konfiguracją.
Naprawienie pojedynczego węzła powoduje ponowne wdrożenie z opcją utrwalania woluminów danych. Tylko wolumin systemowy jest usuwany i nowo aprowizowany podczas wdrażania.
Ważne
Upewnij się, że zawsze masz kopie zapasowe dla obciążeń i nie polegaj tylko na odporności systemu. Jest to szczególnie krytyczne w scenariuszach z jednym węzłem.
Ustawienia odporności
W tej wersji dla operacji naprawy węzła określone zadania nie są wykonywane na woluminach obciążeń utworzonych po wdrożeniu. W przypadku operacji naprawy węzła tylko wymagane woluminy infrastruktury i woluminy obciążenia są przywracane i udostępniane jako udostępnione woluminy klastra (CSV).
Inne woluminy obciążenia utworzone po jego wdrożeniu są nadal zachowywane i można je odnaleźć, uruchamiając Get-VirtualDisk
cmdlet. Należy ręcznie odblokować wolumin (jeśli wolumin ma włączoną funkcję BitLocker) i utworzyć wolumin CSV (w razie potrzeby).
Wymagania sprzętowe
Podczas naprawiania węzła system weryfikuje sprzęt nowego węzła przychodzącego i zapewnia, że węzeł spełnia wymagania sprzętowe przed dodaniu go do systemu.
Składnik | Sprawdzanie zgodności |
---|---|
Procesor | Sprawdź, czy nowy węzeł ma taką samą liczbę rdzeni procesora CPU lub więcej. Jeśli rdzenie procesora CPU w węźle przychodzącym nie spełniają tego wymagania, zostanie wyświetlone ostrzeżenie. Operacja jest jednak dozwolona. |
Pamięć | Sprawdź, czy nowy węzeł ma zainstalowaną taką samą ilość pamięci lub więcej. Jeśli pamięć w węźle przychodzącym nie spełnia tego wymagania, zostanie wyświetlone ostrzeżenie. Operacja jest jednak dozwolona. |
Napędy | Sprawdź, czy nowy węzeł ma taką samą liczbę dysków danych dostępnych dla Storage Spaces Direct. Jeśli liczba dysków w węźle przychodzącym nie spełnia tego wymagania, zostanie zgłoszony błąd i operacja zostanie zablokowana. |
Wymiana węzła
Możesz zastąpić cały węzeł:
- W przypadku nowego węzła, który ma inny numer seryjny w porównaniu ze starym węzłem.
- Po ponownym przywróceniu obrazu bieżącego węzła.
Podczas zamiany węzła są obsługiwane następujące scenariusze:
Node | Disk | Obsługiwane |
---|---|---|
Nowy węzeł | Nowe dyski | Tak |
Nowy węzeł | Bieżące dyski | Tak |
Bieżący węzeł (zrekonfigurowany) | Bieżące dyski sformatowane ** | Nie. |
Bieżący węzeł (reimaged) | Nowe dyski | Tak |
Bieżący węzeł (reimaged) | Bieżące dyski | Tak |
**Dyski używane przez Miejsca do magazynowania Direct wymagają odpowiedniego czyszczenia. Ponowne formatowanie nie jest wystarczające. Zobacz, jak czyścić dyski.
Ważne
Jeśli zastąpisz składnik podczas naprawy węzła, nie musisz zastępować ani resetować dysków danych. Jeśli zastąpisz dysk lub zresetujesz go, dysk nie zostanie rozpoznany po dołączeniu węzła do systemu.
Wymiana składników
W wystąpieniu lokalnym platformy Azure komponenty niewymienne w trybie pracy obejmują następujące elementy:
- Kontroler zarządzania płytą główną (BMC)/płyta główna/karta graficzna
- Kontroler dysku/karta magistrali hosta (HBA)/backplace
- Karta sieciowa
- Jednostka przetwarzania grafiki
- Dyski danych (dyski, które nie obsługują wymiany gorącej, na przykład karty dodatku PCI-e)
Rzeczywiste kroki wymiany komponentów, które nie są przystosowane do wymiany na gorąco, różnią się w zależności od dostawcy sprzętu OEM. Zapoznaj się z dokumentacją dostawcy OEM, jeśli wymagana jest naprawa węzła dla składników, które nie można zamienić na gorąco.
Wymagania wstępne
Przed naprawą węzła należy upewnić się, że:
-
AzureStackLCMUser
jest aktywny w usłudze Active Directory. Aby uzyskać więcej informacji, zobacz Przygotowywanie usługi Active Directory. - Zalogował się jako
AzureStackLCMUser
lub inny użytkownik z równoważnymi uprawnieniami. - Poświadczenia dla elementu
AzureStackLCMUser
nie zostały zmienione.
W razie potrzeby wyłącz węzeł zaplanowany do naprawy. Wykonaj kroki opisane tutaj:
Naprawianie węzła
W tej sekcji opisano, jak naprawić węzeł przy użyciu programu PowerShell, monitorować stan Repair-Server
operacji i rozwiązywać problemy, jeśli występują jakieś problemy.
Upewnij się, że sprawdzono wymagania wstępne.
Wykonaj następujące kroki w węźle, który próbujesz naprawić.
Zaloguj się do witryny Azure Portal przy użyciu uprawnienia roli administratora rozwiązania Azure Stack HCI.
Przejdź do grupy zasobów używanej do wdrożenia lokalnej instancji Azure. W grupie zasobów zidentyfikuj zasób maszyny Azure Arc odpowiadający uszkodzonemu węzłowi, który chcesz naprawić.
W zasobie maszyny Azure Arc przejdź do Ustawienia > Blokady. W okienku po prawej stronie widoczna jest blokada zasobu.
Wybierz blokadę, a następnie wybierz ikonę kosza, aby usunąć blokadę.
Na stronie Przegląd zasobu maszyny usługi Azure Arc w okienku po prawej stronie wybierz pozycję Usuń. To działanie powinno usunąć wadliwy węzeł maszyny.
Zainstaluj system operacyjny i wymagane sterowniki w węźle, który chcesz naprawić. Wykonaj kroki opisane w temacie Instalowanie systemu operacyjnego Azure Stack HCI w wersji 23H2.
Uwaga
W przypadku wdrożenia wystąpienia lokalnego platformy Azure przy użyciu niestandardowych adresów IP magazynu należy ręcznie przypisać adresy IP do kart sieciowych magazynu po naprawieniu węzła.
Zarejestruj węzeł w usłudze Arc. Wykonaj kroki opisane w temacie Rejestrowanie w usłudze Arc i konfigurowanie uprawnień.
Uwaga
Aby zarejestrować się w usłudze Arc, należy użyć tych samych parametrów co istniejące węzły. Na przykład: Nazwa grupy zasobów, Region, Subskrypcja i Dzierżawa.
Przypisz następujące uprawnienia do naprawionego węzła:
- Rola zarządzania lokalnymi urządzeniami w Azure
- Użytkownik sekretów usługi Key Vault Aby uzyskać więcej informacji, zobacz Przypisywanie uprawnień do węzła.
Wykonaj następujące kroki w innym węźle, który jest członkiem tego samego wystąpienia lokalnego platformy Azure.
Jeśli korzystasz z wersji wcześniejszej niż 2405.3, należy uruchomić następujące polecenie, aby wyczyścić pliki powodujące konflikt:
Get-ChildItem -Path "$env:SystemDrive\NugetStore" -Exclude Microsoft.AzureStack.Solution.LCMControllerWinService*,Microsoft.AzureStack.Role.Deployment.Service* | Remove-Item -Recurse -Force
Zaloguj się do węzła, który jest już członkiem systemu, przy użyciu poświadczeń użytkownika domeny podanych podczas wdrażania systemu. Aby naprawić węzeł przychodzący, uruchom następujące polecenie:
$Cred = Get-Credential Repair-Server -Name "<Name of the new node>" -LocalAdminCredential $Cred
Uwaga
Nazwa węzła musi być nazwą NetBIOS. Parametr
LocalAdminCredential
domyślnie jest wbudowanym kontem administratora utworzonym przez instalację systemu operacyjnego Windows.Zanotuj identyfikator operacji jako dane wyjściowe polecenia
Repair-Server
. Będziesz używać tego później do monitorowania postępu operacjiRepair-Server
.
Monitorowanie postępu operacji
Aby monitorować postęp operacji dodawania węzła, wykonaj następujące kroki:
Uruchom następujące polecenie cmdlet i podaj identyfikator operacji z poprzedniego kroku.
$ID = "<Operation ID>" Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID
Po zakończeniu operacji zadanie równoważenia magazynu w tle będzie kontynuowane. Poczekaj na zakończenie zadania ponownego równoważenia magazynu. Aby sprawdzić postęp tego zadania ponownego równoważenia magazynu, użyj następującego polecenia cmdlet:
Get-VirtualDisk|Get-StorageJob
Jeśli zadanie ponownego równoważenia magazynu zostanie ukończone, polecenie cmdlet nie zwróci danych wyjściowych.
Scenariusze odzyskiwania
Poniższe scenariusze odzyskiwania i zalecane kroki ograniczania ryzyka są tabelaryzowane na potrzeby naprawiania węzła:
Opis scenariusza | Czynności zapobiegawcze | Obsługiwane? |
---|---|---|
Operacja naprawy węzła nie powiodła się. | Aby ukończyć operację, zbadaj usterkę. Uruchom ponownie operację, która zakończyła się niepowodzeniem przy użyciu polecenia Repair-Server -Rerun . |
Tak |
Operacja naprawy węzła powiodła się częściowo, ale musiała rozpocząć od nowej instalacji systemu operacyjnego. | W tym scenariuszu orkiestrator (znany również jako Menedżer cyklu życia) zaktualizował już swój magazyn wiedzy za pomocą nowego węzła. Użyj scenariusza naprawy węzła. | Tak |
Rozwiązywanie problemów
Jeśli napotkasz awarie lub błędy podczas naprawiania węzła, możesz przechwycić rezultaty awarii w pliku dziennika.
Zaloguj się przy użyciu poświadczeń użytkownika domeny podanych podczas wdrażania systemu. Zapisz problem w plikach dziennika.
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
Aby ponownie uruchomić operację, która zakończyła się niepowodzeniem, użyj następującego polecenia cmdlet:
Repair-Server -Rerun
Następne kroki
Dowiedz się więcej o sposobie dodawania węzła.