Naprawianie węzła w środowisku lokalnym platformy Azure

Artykuł
03/09/2025

Dotyczy: Azure Local 2311.2 i nowsze

W tym artykule opisano sposób naprawiania węzła w lokalnej instancji platformy Azure. W tym artykule każdy serwer jest określany jako węzeł.

Informacje o węzłach naprawy

Azure Local to hiperkonwergentny system, który umożliwia naprawę węzłów z istniejących systemów. W przypadku awarii sprzętu może być konieczne naprawienie węzła w systemie.

Przed naprawą węzła upewnij się, że skonsultujesz się z dostawcą rozwiązania, które składniki w węźle są jednostkami wymienialnymi na miejscu (FRU), które możesz wymienić samodzielnie, a które wymagają wymiany przez technika.

Części, które obsługują wymianę gorącą, zwykle nie wymagają ponownego obrazu węzła, w przeciwieństwie do składników, które nie można zamienić na gorąco, takich jak płyty główne. Skontaktuj się z producentem sprzętu, aby określić, które zamiany składników wymagają odtworzenia obrazu węzła. Aby uzyskać więcej informacji, zobacz Zastępowanie składników.

Przepływ pracy węzła naprawy

Poniższy diagram przepływu przedstawia ogólny proces naprawy węzła.

Węzeł może nie znajdować się w stanie, gdzie zamknięcie jest możliwe lub konieczne.

Aby naprawić istniejący węzeł, wykonaj następujące ogólne kroki:

Jeśli to możliwe, zamknij węzeł, który chcesz naprawić. W zależności od stanu węzła zamknięcie może być niemożliwe lub konieczne.
Z obrazu węzła, który należy naprawić.
Uruchom operację naprawy węzła. System operacyjny, sterowniki i oprogramowanie układowe usługi Azure Stack HCI są aktualizowane w ramach operacji naprawy.

Magazyn jest automatycznie zrównoważony na przywróconym węźle. Ponowne równoważenie magazynu to zadanie o niskim priorytcie, które może być uruchamiane przez wiele dni w zależności od liczby węzłów i używanego magazynu.

Obsługiwane scenariusze

Naprawa węzła powoduje ponowne obrazowanie węzła i przywrócenie go do systemu z poprzednią nazwą i konfiguracją.

Naprawienie pojedynczego węzła powoduje ponowne wdrożenie z opcją utrwalania woluminów danych. Tylko wolumin systemowy jest usuwany i nowo aprowizowany podczas wdrażania.

Ważne

Upewnij się, że zawsze masz kopie zapasowe dla obciążeń i nie polegaj tylko na odporności systemu. Jest to szczególnie krytyczne w scenariuszach z jednym węzłem.

Ustawienia odporności

W tej wersji dla operacji naprawy węzła określone zadania nie są wykonywane na woluminach obciążeń utworzonych po wdrożeniu. W przypadku operacji naprawy węzła tylko wymagane woluminy infrastruktury i woluminy obciążenia są przywracane i udostępniane jako udostępnione woluminy klastra (CSV).

Inne woluminy obciążenia utworzone po jego wdrożeniu są nadal zachowywane i można je odnaleźć, uruchamiając Get-VirtualDisk cmdlet. Należy ręcznie odblokować wolumin (jeśli wolumin ma włączoną funkcję BitLocker) i utworzyć wolumin CSV (w razie potrzeby).

Wymagania sprzętowe

Podczas naprawiania węzła system weryfikuje sprzęt nowego węzła przychodzącego i zapewnia, że węzeł spełnia wymagania sprzętowe przed dodaniu go do systemu.

Składnik	Sprawdzanie zgodności
Procesor	Sprawdź, czy nowy węzeł ma taką samą liczbę rdzeni procesora CPU lub więcej. Jeśli rdzenie procesora CPU w węźle przychodzącym nie spełniają tego wymagania, zostanie wyświetlone ostrzeżenie. Operacja jest jednak dozwolona.
Pamięć	Sprawdź, czy nowy węzeł ma zainstalowaną taką samą ilość pamięci lub więcej. Jeśli pamięć w węźle przychodzącym nie spełnia tego wymagania, zostanie wyświetlone ostrzeżenie. Operacja jest jednak dozwolona.
Napędy	Sprawdź, czy nowy węzeł ma taką samą liczbę dysków danych dostępnych dla Storage Spaces Direct. Jeśli liczba dysków w węźle przychodzącym nie spełnia tego wymagania, zostanie zgłoszony błąd i operacja zostanie zablokowana.

Wymiana węzła

Możesz zastąpić cały węzeł:

W przypadku nowego węzła, który ma inny numer seryjny w porównaniu ze starym węzłem.
Po ponownym przywróceniu obrazu bieżącego węzła.

Podczas zamiany węzła są obsługiwane następujące scenariusze:

Node	Disk	Obsługiwane
Nowy węzeł	Nowe dyski	Tak
Nowy węzeł	Bieżące dyski	Tak
Bieżący węzeł (zrekonfigurowany)	Bieżące dyski sformatowane **	Nie.
Bieżący węzeł (reimaged)	Nowe dyski	Tak
Bieżący węzeł (reimaged)	Bieżące dyski	Tak

**Dyski używane przez Miejsca do magazynowania Direct wymagają odpowiedniego czyszczenia. Ponowne formatowanie nie jest wystarczające. Zobacz, jak czyścić dyski.

Ważne

Jeśli zastąpisz składnik podczas naprawy węzła, nie musisz zastępować ani resetować dysków danych. Jeśli zastąpisz dysk lub zresetujesz go, dysk nie zostanie rozpoznany po dołączeniu węzła do systemu.

Wymiana składników

W wystąpieniu lokalnym platformy Azure komponenty niewymienne w trybie pracy obejmują następujące elementy:

Kontroler zarządzania płytą główną (BMC)/płyta główna/karta graficzna
Kontroler dysku/karta magistrali hosta (HBA)/backplace
Karta sieciowa
Jednostka przetwarzania grafiki
Dyski danych (dyski, które nie obsługują wymiany gorącej, na przykład karty dodatku PCI-e)

Rzeczywiste kroki wymiany komponentów, które nie są przystosowane do wymiany na gorąco, różnią się w zależności od dostawcy sprzętu OEM. Zapoznaj się z dokumentacją dostawcy OEM, jeśli wymagana jest naprawa węzła dla składników, które nie można zamienić na gorąco.

Wymagania wstępne

Przed naprawą węzła należy upewnić się, że:

AzureStackLCMUser jest aktywny w usłudze Active Directory. Aby uzyskać więcej informacji, zobacz Przygotowywanie usługi Active Directory.
Zalogował się jako AzureStackLCMUser lub inny użytkownik z równoważnymi uprawnieniami.
Poświadczenia dla elementu AzureStackLCMUser nie zostały zmienione.

W razie potrzeby wyłącz węzeł zaplanowany do naprawy. Wykonaj kroki opisane tutaj:

Naprawianie węzła

W tej sekcji opisano, jak naprawić węzeł przy użyciu programu PowerShell, monitorować stan Repair-Server operacji i rozwiązywać problemy, jeśli występują jakieś problemy.

Upewnij się, że sprawdzono wymagania wstępne.

Wykonaj następujące kroki w węźle, który próbujesz naprawić.

Zaloguj się do witryny Azure Portal przy użyciu uprawnienia roli administratora rozwiązania Azure Stack HCI.
1. Przejdź do grupy zasobów używanej do wdrożenia lokalnej instancji Azure. W grupie zasobów zidentyfikuj zasób maszyny Azure Arc odpowiadający uszkodzonemu węzłowi, który chcesz naprawić.
2. W zasobie maszyny Azure Arc przejdź do Ustawienia > Blokady. W okienku po prawej stronie widoczna jest blokada zasobu.
3. Wybierz blokadę, a następnie wybierz ikonę kosza, aby usunąć blokadę.
4. Na stronie Przegląd zasobu maszyny usługi Azure Arc w okienku po prawej stronie wybierz pozycję Usuń. To działanie powinno usunąć wadliwy węzeł maszyny.
Zainstaluj system operacyjny i wymagane sterowniki w węźle, który chcesz naprawić. Wykonaj kroki opisane w temacie Instalowanie systemu operacyjnego Azure Stack HCI w wersji 23H2.

Uwaga

W przypadku wdrożenia wystąpienia lokalnego platformy Azure przy użyciu niestandardowych adresów IP magazynu należy ręcznie przypisać adresy IP do kart sieciowych magazynu po naprawieniu węzła.
Zarejestruj węzeł w usłudze Arc. Wykonaj kroki opisane w temacie Rejestrowanie w usłudze Arc i konfigurowanie uprawnień.

Uwaga

Aby zarejestrować się w usłudze Arc, należy użyć tych samych parametrów co istniejące węzły. Na przykład: Nazwa grupy zasobów, Region, Subskrypcja i Dzierżawa.
Przypisz następujące uprawnienia do naprawionego węzła:
- Rola zarządzania lokalnymi urządzeniami w Azure
- Użytkownik sekretów usługi Key Vault Aby uzyskać więcej informacji, zobacz Przypisywanie uprawnień do węzła.

Wykonaj następujące kroki w innym węźle, który jest członkiem tego samego wystąpienia lokalnego platformy Azure.

Jeśli korzystasz z wersji wcześniejszej niż 2405.3, należy uruchomić następujące polecenie, aby wyczyścić pliki powodujące konflikt:

Get-ChildItem -Path "$env:SystemDrive\NugetStore" -Exclude Microsoft.AzureStack.Solution.LCMControllerWinService*,Microsoft.AzureStack.Role.Deployment.Service* | Remove-Item -Recurse -Force

Zaloguj się do węzła, który jest już członkiem systemu, przy użyciu poświadczeń użytkownika domeny podanych podczas wdrażania systemu. Aby naprawić węzeł przychodzący, uruchom następujące polecenie:
```
$Cred = Get-Credential 
Repair-Server -Name "<Name of the new node>" -LocalAdminCredential $Cred
```
Uwaga

Nazwa węzła musi być nazwą NetBIOS. Parametr LocalAdminCredential domyślnie jest wbudowanym kontem administratora utworzonym przez instalację systemu operacyjnego Windows.
Zanotuj identyfikator operacji jako dane wyjściowe polecenia Repair-Server . Będziesz używać tego później do monitorowania postępu operacji Repair-Server.

Monitorowanie postępu operacji

Aby monitorować postęp operacji dodawania węzła, wykonaj następujące kroki:

Uruchom następujące polecenie cmdlet i podaj identyfikator operacji z poprzedniego kroku.

$ID = "<Operation ID>" 
Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID

Po zakończeniu operacji zadanie równoważenia magazynu w tle będzie kontynuowane. Poczekaj na zakończenie zadania ponownego równoważenia magazynu. Aby sprawdzić postęp tego zadania ponownego równoważenia magazynu, użyj następującego polecenia cmdlet:
```
Get-VirtualDisk|Get-StorageJob
```
Jeśli zadanie ponownego równoważenia magazynu zostanie ukończone, polecenie cmdlet nie zwróci danych wyjściowych.

Scenariusze odzyskiwania

Poniższe scenariusze odzyskiwania i zalecane kroki ograniczania ryzyka są tabelaryzowane na potrzeby naprawiania węzła:

Opis scenariusza	Czynności zapobiegawcze	Obsługiwane?
Operacja naprawy węzła nie powiodła się.	Aby ukończyć operację, zbadaj usterkę. Uruchom ponownie operację, która zakończyła się niepowodzeniem przy użyciu polecenia `Repair-Server -Rerun`.	Tak
Operacja naprawy węzła powiodła się częściowo, ale musiała rozpocząć od nowej instalacji systemu operacyjnego.	W tym scenariuszu orkiestrator (znany również jako Menedżer cyklu życia) zaktualizował już swój magazyn wiedzy za pomocą nowego węzła. Użyj scenariusza naprawy węzła.	Tak

Rozwiązywanie problemów

Jeśli napotkasz awarie lub błędy podczas naprawiania węzła, możesz przechwycić rezultaty awarii w pliku dziennika.

Zaloguj się przy użyciu poświadczeń użytkownika domeny podanych podczas wdrażania systemu. Zapisz problem w plikach dziennika.
```
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
```
Aby ponownie uruchomić operację, która zakończyła się niepowodzeniem, użyj następującego polecenia cmdlet:
```
Repair-Server -Rerun
```

Następne kroki

Dowiedz się więcej o sposobie dodawania węzła.

Udostępnij za pośrednictwem