Behandeln von Azure Operator Nexus-Serverproblemen

Artikel
12/13/2024

In diesem Artikel erfahren Sie, wie Sie Serverprobleme mithilfe von Neustart-, Reimaging- und Ersetzungsaktionen auf Azure Operator Nexus-BMMs (Bare Metal Machines; Bare-Metal-Computer) behandeln. Möglicherweise müssen diese Aktionen zu Wartungszwecken auf Ihrem Server ausgeführt werden, was zu einer kurzen Unterbrechung bestimmter Bare-Metal-Computer führt.

Der Zeitaufwand für die einzelnen Aktionen ist jeweils ähnlich. Neustarten geht am schnellsten. Ersetzen dauert dagegen etwas länger. Alle drei Aktionen sind einfache und effiziente Problembehandlungsmethoden.

Achtung

Führen Sie ohne vorherige Rücksprache mit dem Microsoft-Supportpersonal keine Aktionen für Verwaltungsserver durch. Andernfalls kann die Integrität des Operator Nexus-Clusters beeinträchtigt werden.

Voraussetzungen

Machen Sie sich anhand der BMM-Aktionen mit den in diesem Artikel beschriebenen Funktionen vertraut.
Sammeln Sie die folgenden Informationen:
- Name der verwalteten Ressourcengruppe für den Bare-Metal-Computer
- Name des Bare-Metal-Computers ab, für den ein Lebenszyklusverwaltungsvorgang erforderlich ist
- Abonnement-ID

Wichtig

Unterbrechende Befehlsanforderungen für einen KCP-Knoten (Kubernetes Control Plane; Kubernetes-Steuerungsebene) werden abgelehnt, wenn bereits ein anderer unterbrechender Aktionsbefehl für einen anderen KCP-Knoten ausgeführt wird oder wenn nicht die gesamte KCP verfügbar ist.

Neustart, Reimaging und Ersetzung gelten als unterbrechende Aktionen.

Diese Überprüfung wird durchgeführt, um die Integrität der Nexus-Instanz aufrechtzuerhalten und sicherzustellen, dass nicht mehrere KCP-Knoten aufgrund gleichzeitiger unterbrechender Aktionen ausfallen. Wenn mehrere Knoten ausfallen, wird der Schwellenwert für ein fehlerfreies Quorum der Kubernetes-Steuerungsebene überschritten.

Identifizieren der Korrekturmaßnahme

Wenn Sie Probleme mit Fehlern auf einem Bare-Metal-Computer behandeln und die am besten geeignete beste Korrekturmaßnahme ermitteln, ist es unerlässlich, mit den verfügbaren Optionen vertraut zu sein. Das Neustarten oder Reimaging eines Bare-Metal-Computers kann sowohl effizient als auch effektiv sein, um Probleme zu beheben oder die Software wieder in einen als funktionierend bekannten Zustand zu versetzen. In Fällen, in denen mindestens eine Hardwarekomponente auf dem Server fehlschlägt, kann es erforderlich sein, den Bare-Metal-Computer vollständig zu ersetzen. In diesem Artikel werden die bewährten Methoden für jede dieser drei Aktionen erläutert.

Die Behandlung technischer Probleme erfordert einen systematischen Ansatz. Eine effektive Methode ist, mit der am wenigsten invasiven Lösung zu beginnen und dann bei Bedarf nach und nach komplexere und drastischere Maßnahmen zu ergreifen.

Der erste Schritt bei der Problembehandlung besteht darin, das Gerät oder System neu zu starten. Ein Neustart kann dazu beitragen, temporäre Störungen oder Fehler zu beseitigen, die möglicherweise zu dem Problem geführt haben.

Sollte sich das Problem durch einen Neustart nicht beheben lassen, kann als Nächstes ggf. ein Reimaging für das Gerät oder System durchgeführt werden.

Wenn Reimaging das Problem nicht behebt, kann als letzter Schritt die fehlerhafte Hardwarekomponente ersetzt werden. Ein Austausch ist zwar eine umfassendere Maßnahme, kann aber erforderlich sein, wenn das Problem auf einen Hardwaredefekt zurückzuführen ist.

Denken Sie daran, dass diese Problembehandlungsmethoden möglicherweise nicht immer erfolgreich sind und aufgrund anderer Faktoren ggf. ein anderer Ansatz erforderlich ist.

Behandeln von Problemen mithilfe einer Neustartaktion

Beim Neustarten eines Bare-Metal-Computers wird der Server mithilfe eines einfachen API-Aufrufs neu gestartet. Diese Aktion kann hilfreich sein, wenn virtuelle Mandantencomputer auf dem Host nicht reagieren oder hängen geblieben sind.

Der Neustart ist in der Regel der erste Problembehandlungsschritt.

Mit dem folgenden Azure CLI-Befehl wird power-off für das angegebene bareMetalMachineName-Element ausgeführt.

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Mit dem folgenden Azure CLI-Befehl wird start für das angegebene bareMetalMachineName-Element ausgeführt.

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Mit dem folgenden Azure CLI-Befehl wird restart für das angegebene bareMetalMachineName-Element ausgeführt.

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Behandeln von Problemen mithilfe einer Reimagingaktion

Beim Reimaging eines Bare-Metal-Computers wird das Image auf dem Betriebssystemdatenträger erneut bereitgestellt. Die Mandantendaten bleiben davon unberührt. Diese Aktion führt die erforderlichen Schritte aus, um dem Cluster mit den gleichen Bezeichnern erneut zu beitreten.

Die Reimagingaktion kann für die Problembehandlung hilfreich sein, da sie das Betriebssystem wieder in einen als funktionierend bekannten Zustand versetzt. Zu den allgemeinen Ursachen, die sich mittels Reimaging beheben lassen, zählt unter anderem die Wiederherstellung aufgrund von Zweifeln an der Hostintegrität, aufgrund von vermuteter oder bestätigter Sicherheitskompromittierung oder aufgrund von „Notfall“-Schreibaktivitäten.

Eine Reimagingaktion wird für geringstmögliches Betriebsrisiko empfohlen, um die Integrität des Bare-Metal-Computers sicherzustellen.

Es empfiehlt sich, vor dem Ausführen des reimage-Befehls den cordon-Befehl mit auf „True“ festgelegtem evacuate-Element auszuführen, um sicherzustellen, dass die Workloads des Bare-Metal-Computers entfernt werden.

Um festzustellen, ob derzeit Workloads auf einem BMM ausgeführt werden, führen Sie den folgenden Befehl aus:

Für Virtual Machines:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Für Nexus Kubernetes-Clusterknoten: (erfordert die Anmeldung beim Nexus Kubernetes-Cluster)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Mit dem folgenden Azure CLI-Befehl wird cordon für das angegebene bareMetalMachineName-Element ausgeführt.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Mit dem folgenden Azure CLI-Befehl wird reimage für das angegebene bareMetalMachineName-Element ausgeführt.

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Mit dem folgenden Azure CLI-Befehl wird uncordon für das angegebene bareMetalMachineName-Element ausgeführt.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Behandeln von Problemen mithilfe einer Ersetzungsaktion

Server enthalten zahlreiche physische Komponenten, die im Laufe der Zeit ausfallen können. Es ist wichtig zu verstehen, bei welchen physischen Reparaturen ein Bare-Metal-Computer ersetzt werden muss und bei welchen dies nur empfohlen wird.

Ein Hardwareüberprüfungsprozess wird aufgerufen, um vor der Bereitstellung des Betriebssystemimages die Integrität des physischen Hosts sicherzustellen. Genau wie bei der Reimagingaktion bleiben die Mandantendaten beim Ersetzen unverändert.

Wichtig

Ab der API-Version 2024-07-01 mit allgemeiner Verfügbarkeit wird der RAID-Controller während der BMM-Ersetzung zurückgesetzt, wobei alle Daten von den virtuellen Datenträgern des Servers gelöscht werden. Warnungen des Baseboard-Verwaltungscontrollers (BMC) für virtuelle Datenträger, die während der BMM-Ersetzung ausgelöst werden, können ignoriert werden, sofern es keine weiteren Warnungen zu physischen Datenträger und/oder RAID-Controllern gibt.

Führen Sie am besten zunächst einen cordon-Befehl aus, um den Bare-Metal-Computer aus der Workloadplanung zu entfernen, und fahren Sie ihn dann vor der physischen Reparatur herunter.

Mit dem folgenden Azure CLI-Befehl wird cordon für das angegebene bareMetalMachineName-Element ausgeführt.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Wenn Sie ein im laufenden Betrieb austauschbares Netzteil physisch reparieren, ist kein Austausch erforderlich, da der BMM-Host nach der Reparatur weiterhin normal funktioniert.

Bei folgenden physischen Reparaturen wird ein Austausch empfohlen. Er ist allerdings nicht zwingend erforderlich, um den Bare-Metal-Computer wieder in Betrieb zu nehmen:

CPU
Dual Inline Memory Module (DIMM)
Lüfter
Erweiterungsplatine/Riser
Transceiver
Ersatz für Ethernet- oder Glasfaserkabel

Bei folgenden physischen Reparaturen ist ein Austausch erforderlich, um den Bare-Metal-Computer wieder in Betrieb zu nehmen:

Rückwandplatine
Hauptplatine
SSD
PERC/RAID-Adapter
Mellanox-NIC (Network Interface Card; Netzwerkschnittstellenkarte)
Eingebettete Broadcom-NIC

Führen Sie nach Abschluss der physischen Reparaturen einen Austausch aus.

Mit dem folgenden Azure CLI-Befehl wird replace für das angegebene bareMetalMachineName-Element ausgeführt.

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID>

Mit dem folgenden Azure CLI-Befehl wird das angegebene bareMetalMachineName-Element freigegeben.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Zusammenfassung

Neustart, Reimaging und Ersetzung sind effektive Problembehandlungsmethoden zur Behebung technischer Probleme. Es ist jedoch wichtig, einen systematischen Ansatz zu verfolgen und andere Faktoren zu berücksichtigen, bevor Sie drastische Maßnahmen ergreifen. Weitere Details zu den BMM-Aktionen finden Sie im Artikel BMM-Aktionen.

Sollten Sie weitere Fragen haben, wenden Sie sich an den Support. Weitere Informationen zu Supportplänen finden Sie unter Azure-Supportpläne.

Freigeben über