Rozwiązywanie problemów z serwerem Nexus operatora platformy Azure
W tym artykule opisano sposób rozwiązywania problemów z serwerem przy użyciu akcji ponownego uruchamiania, ponownego obrazu i zastępowania na maszynach bez systemu operacyjnego (BMM) operatora platformy Azure. Może być konieczne wykonanie tych akcji na serwerze ze względu na konserwację, co powoduje krótkie przerwy w działaniu określonych maszyn BM.
Czas wymagany do ukończenia każdej z tych akcji jest podobny. Ponowne uruchamianie jest najszybsze, podczas gdy wymiana trwa nieco dłużej. Wszystkie trzy akcje są prostymi i wydajnymi metodami rozwiązywania problemów.
Uwaga
Nie wykonuj żadnych działań na serwerach zarządzania bez uprzedniej konsultacji z personelem pomocy technicznej firmy Microsoft. Może to mieć wpływ na integralność klastra Operator Nexus.
Wymagania wstępne
- Zapoznaj się z możliwościami, do których odwołuje się ten artykuł, przeglądając akcje programu BMM.
- Zbierz następujące informacje:
- Nazwa grupy zasobów dla programu BMM
- Nazwa programu BMM, który wymaga operacji zarządzania cyklem życia
Ważne
Żądania poleceń zakłócających względem węzła płaszczyzny sterowania Kubernetes (KCP) są odrzucane, jeśli istnieje już inne polecenie akcji zakłócające działanie względem innego węzła KCP lub jeśli pełne KCP nie jest dostępne.
Ponowne uruchamianie, ponowne odtworzenie obrazu i zastępowanie są uznawane za działania zakłócające.
Ta kontrola jest wykonywana w celu zachowania integralności wystąpienia Nexus i zapewnienia, że wiele węzłów KCP nie działa jednocześnie z powodu równoczesnych akcji zakłócających działanie. Jeśli wiele węzłów spadnie, spowoduje to przerwanie progu kworum w dobrej kondycji płaszczyzny sterowania kubernetes.
Identyfikowanie akcji naprawczej
Podczas rozwiązywania problemów z programem BMM pod kątem błędów i określania najlepszej akcji naprawczej ważne jest zrozumienie dostępnych opcji. Ponowne uruchamianie lub ponowne wyobrażanie sobie programu BMM może być wydajnym i skutecznym sposobem rozwiązywania problemów lub przywracania oprogramowania do znanego miejsca. Zastąpienie programu BMM może być wymagane, gdy co najmniej jeden składnik sprzętowy nie powiedzie się na serwerze. Ten artykuł zawiera wskazówki dotyczące najlepszych rozwiązań dla każdej z trzech akcji.
Rozwiązywanie problemów technicznych wymaga systematycznego podejścia. Jedną z skutecznych metod jest rozpoczęcie od najmniej inwazyjnego rozwiązania i w razie potrzeby działa w drodze do bardziej złożonych i drastycznych środków.
Pierwszym krokiem rozwiązywania problemów jest często próba ponownego uruchomienia urządzenia lub systemu. Ponowne uruchamianie może pomóc wyczyścić wszelkie tymczasowe błędy lub błędy, które mogą powodować problem. Jeśli ponowne uruchomienie nie rozwiąże problemu, następnym krokiem może być próba ponownego odtworzenia urządzenia lub systemu.
Jeśli ponowne odtworzenie nie rozwiąże problemu, ostatnim krokiem może być zastąpienie wadliwego składnika sprzętowego. Wymiana może być bardziej drastyczna, ale może być konieczne, jeśli problem jest związany z awarią sprzętu.
Należy pamiętać, że te metody rozwiązywania problemów mogą nie zawsze być skuteczne, a inne czynniki w grze mogą wymagać innego podejścia.
Rozwiązywanie problemów z akcją ponownego uruchamiania
Ponowne uruchomienie programu BMM to proces ponownego uruchamiania serwera za pomocą prostego wywołania interfejsu API. Ta akcja może być przydatna w przypadku rozwiązywania problemów, gdy maszyny wirtualne dzierżawy na hoście nie reagują lub w inny sposób są zablokowane.
Ponowne uruchomienie zazwyczaj jest punktem wyjścia do rozwiązania problemu.
Rozwiązywanie problemów z akcją z obrazem
Ponowne wyobrażanie sobie programu BMM to proces używany do ponownego wdrażania obrazu na dysku systemu operacyjnego bez wpływu na dane dzierżawy. Ta akcja wykonuje kroki ponownego dołączania klastra z tymi samymi identyfikatorami.
Akcja z obrazu może być przydatna do rozwiązywania problemów przez przywrócenie systemu operacyjnego do znanego dobrego stanu pracy. Typowe przyczyny, które można rozwiązać za pomocą ponownego tworzenia, obejmują odzyskiwanie z powodu wątpliwości co do integralności hosta, podejrzenia lub potwierdzenia naruszenia zabezpieczeń lub działania zapisu "break glass".
Akcja reimage jest najlepszym rozwiązaniem dla najniższego ryzyka operacyjnego, aby zapewnić integralność programu BMM.
Rozwiązywanie problemów z akcją zamieniania
Serwery zawierają wiele składników fizycznych, które mogą zakończyć się niepowodzeniem w czasie. Ważne jest, aby zrozumieć, które naprawy fizyczne wymagają wymiany programu BMM i gdy zalecane jest zastąpienie programu BMM, ale nie jest wymagane.
Wywoływany jest proces weryfikacji sprzętu w celu zapewnienia integralności hosta fizycznego przed wdrożeniem obrazu systemu operacyjnego. Podobnie jak akcja z obrazu, dane dzierżawy nie są modyfikowane podczas zastępowania.
Ważne
Począwszy od wersji interfejsu API GA 2024-07-01, kontroler RAID jest resetowany podczas zastępowania BMM, wyczyszczając wszystkie dane z dysków wirtualnych serwera. Alerty dysku wirtualnego kontrolera zarządzania płytą główną (BMC) wyzwalane podczas zamiany BMM można zignorować, chyba że istnieją dodatkowe alerty dotyczące dysków fizycznych i/lub kontrolerów RAID.
Najlepszym rozwiązaniem jest najpierw wydanie cordon
polecenia w celu usunięcia maszyny bez systemu operacyjnego z planowania obciążeń, a następnie zamknięcie programu BMM przed naprawami fizycznymi.
Podczas przeprowadzania fizycznej naprawy zasilacza z możliwością wymiany na gorąco akcja wymiany nie jest wymagana, ponieważ host BMM będzie nadal działać normalnie po naprawie.
Podczas wykonywania następujących napraw fizycznych zalecamy wykonanie akcji zamiany, chociaż nie jest konieczne przywrócenie programu BMM z powrotem do usługi:
- Procesor CPU
- Dwuwierszowy moduł pamięci (DIMM)
- wentylator
- Wznioska tablicy rozszerzeń
- Transceiver
- Wymiana ethernetowego lub światłowodowego
Podczas wykonywania następujących napraw fizycznych wymagana jest akcja zamiany, aby przywrócić program BMM do usługi:
- Płyta montażowa
- Tablica systemowa
- Dysk SSD
- Adapter PERC/RAID
- Karta interfejsu sieciowego Mellanox (NIC)
- Osadzona karta sieciowa Broadcom
Podsumowanie
Ponowne uruchamianie, ponowne odnajdowanie i zastępowanie są skutecznymi metodami rozwiązywania problemów, których można użyć do rozwiązywania problemów technicznych. Jednak ważne jest, aby mieć systematyczne podejście i rozważyć inne czynniki przed wypróbowaniem drastycznych środków. Więcej szczegółów na temat akcji programu BMM można znaleźć w artykule Dotyczącym akcji programu BMM.
Jeśli nadal masz pytania, skontaktuj się z pomocą techniczną. Aby uzyskać więcej informacji na temat planów pomocy technicznej, zobacz Plany pomocy technicznej platformy Azure.