Freigeben über


Verwalten des Lebenszyklus von Bare-Metal-Computern

In diesem Artikel erfahren Sie, wie Sie Lebenszyklusverwaltungsvorgänge für Bare-Metal-Computer (Bare Metal Machines, BMM) ausführen. Diese Schritte sollten für die Problembehandlung verwendet werden – entweder für die Wiederherstellung nach Fehlern oder beim Ausführen von Wartungsaktionen. Die Befehle zum Verwalten des Lebenszyklus des Bare-Metal-Computers umfassen Folgendes:

Achtung

Führen Sie ohne vorherige Rücksprache mit dem Microsoft-Supportpersonal keine Aktionen für Verwaltungsserver durch. Andernfalls kann die Integrität des Operator Nexus-Clusters beeinträchtigt werden.

  • Ausschalten eines BMM
  • Starten eines BMM
  • Erneutes Starten eines BMM
  • Unplanbarmachen eines BMM („cordon“ ohne „evacuate“)
  • Unplanbarmachen eines BMM („cordon“ mit „evacuate“)
  • Planbarmachen eines BMM („uncordon“)
  • Durchführen eines Reimagings für einen BMM
  • Ersetzen eines BMM

Wichtig

Unterbrechende Befehlsanforderungen für einen KCP-Knoten (Kubernetes Control Plane; Kubernetes-Steuerungsebene) werden abgelehnt, wenn bereits ein anderer unterbrechender Aktionsbefehl für einen anderen KCP-Knoten ausgeführt wird oder wenn nicht die gesamte KCP verfügbar ist. Diese Überprüfung wird durchgeführt, um die Integrität der Nexus-Instanz aufrechtzuerhalten und sicherzustellen, dass nicht mehrere KCP-Knoten aufgrund gleichzeitiger unterbrechender Aktionen funktionsunfähig werden. Wenn mehrere Knoten funktionsunfähig werden, wird der Schwellenwert für ein fehlerfreies Quorum der Kubernetes-Steuerungsebene überschritten.

Die fett formatierten Aktionen in der obigen Liste gelten als unterbrechend (ausschalten, neu starten, Reimaging durchführen, ersetzen). „cordon“ ohne „evacuate“ wird als nicht unterbrechend betrachtet. „cordon“ mit „evacuate“ wird als unterbrechend betrachtet.

Wie bereits in der Warnung erwähnt, dürfen Aktionen für Verwaltungsserver (insbesondere KCP-Knoten) nur in Absprache mit dem Microsoft-Supportpersonal ausgeführt werden.

Voraussetzungen

  1. Installieren Sie die neueste Version der passenden Azure CLI-Erweiterung.
  2. Rufen Sie den Namen der Ressourcengruppe für den Namen der vom Cluster verwalteten Ressourcengruppe (cluster_MRG) ab.
  3. Rufen Sie den Namen des Bare-Metal-Computers ab, für den ein Lebenszyklusverwaltungsvorgang erforderlich ist.
  4. Stellen Sie sicher, dass poweredState des Bare-Metal-Zielcomputers auf On und readyState auf True festgelegt ist.
    1. Diese Voraussetzung gilt nicht für den Befehl start.

Ausschalten eines BMM

Durch diesen Befehl wird der angegebene Bare-Metal-Computer (bareMetalMachineName) neu gestartet (power-off).

az networkcloud baremetalmachine power-off \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Starten eines BMM

Durch diesen Befehl wird der angegebene Bare-Metal-Computer (bareMetalMachineName) neu gestartet (start).

az networkcloud baremetalmachine start \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Erneutes Starten eines BMM

Durch diesen Befehl wird der angegebene Bare-Metal-Computer (bareMetalMachineName) neu gestartet (restart).

az networkcloud baremetalmachine restart \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Unplanbarmachen eines Bare-Metal-Computers (cordon)

Um festzustellen, ob derzeit Workloads auf einem BMM ausgeführt werden, führen Sie den folgenden Befehl aus:

Für Virtual Machines:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Für Nexus Kubernetes-Clusterknoten: (erfordert die Anmeldung beim Nexus Kubernetes-Cluster)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Sie können einen Bare-Metal-Computer unplanbar machen, indem Sie den Befehl cordon ausführen. Wenn Sie den Befehl cordon ausführen, werden Operator Nexus-Workloads beim Festlegen von „cordon“ nicht auf dem Bare-Metal-Computer geplant. Beim Versuch, eine Workload auf einem Bare-Metal-Computer zu erstellen, der sich im Zustand cordoned befindet, wird die Workload in den Zustand pending versetzt. Bereits vorhandene Workloads werden weiterhin ausgeführt. Der cordon-Befehl unterstützt einen evacuate-Parameter mit dem Standardwert False. Es ist eine bewährte Methode, dies auf True festzulegen. Beim Ausführen des cordon-Befehls mit dem Wert True für den evacuate-Parameter werden die Workloads, die auf dem Bare-Metal-Computer ausgeführt werden, beendet (stopped), und der Bare-Metal-Computer wird in den Zustand pending versetzt.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

evacuate "True" entfernt Workloads von diesem Knoten, während evacuate "False" lediglich die Planung neuer Workloads verhindert.

Planbarmachen eines Bare-Metal-Computers („uncordon“)

Sie können einen Bare-Metal-Computer planbar (verwendbar) machen, indem Sie den Befehl uncordon ausführen. Alle Workloads im Zustand pending auf dem Bare-Metal-Computer werden neu gestartet (restarted), wenn der Bare-Metal-Computer mittels uncordoned planbar gemacht wird.

az networkcloud baremetalmachine uncordon \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Durchführen eines Reimagings für einen Bare-Metal-Computer

Sie können die Laufzeitversion auf einer BMM wiederherstellen, indem Sie den Befehl reimage ausführen. Durch diesen Prozess wird das Runtime-Image auf dem Bare-Metal-Zielcomputer erneut bereitgestellt, und es werden Schritte ausgeführt, um dem Cluster mit den gleichen Bezeichnern erneut beizutreten. Diese Aktion wirkt sich nicht auf die Mandantenworkloaddateien auf dieser BMM aus. Wenn eine Schreib- oder Bearbeitungsaktion auf dem Knoten über den BMM-Zugriff ausgeführt wird, ist diese „Reimage“-Aktion erforderlich, um den Microsoft-Support wiederherzustellen, und die Änderungen gehen verloren, wodurch der Knoten im erwarteten Zustand wiederhergestellt wird. Es empfiehlt sich, vor dem Ausführen des reimage-Befehls den cordon-Befehl mit evacuate "True" auszuführen, um sicherzustellen, dass die Workloads des Bare-Metal-Computers entfernt werden.

Warnung

Wenn mehrere baremetalmachine replace- oder reimage-Befehle gleichzeitig ausgeführt werden oder replace gleichzeitig mit reimage ausgeführt wird, funktionieren Server nicht mehr. Achten Sie darauf, dass ein Vorgang vom Typ replace/reimage vollständig abgeschlossen wurde, bevor Sie einen weiteren starten.

az networkcloud baremetalmachine reimage \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Ersetzen eines BMM

Verwenden Sie den replace-Befehl, wenn auf einem Server Hardwareprobleme auftreten, die einen vollständigen oder teilweisen Hardwareaustausch erfordern. Nach dem Austausch von Komponenten wie der Hauptplatine oder der Netzwerkschnittstellenkarte (Network Interface Card, NIC) ändert sich die MAC-Adresse des Bare-Metal-Computers. Die iDRAC-IP-Adresse und der Hostname bleiben allerdings unverändert.

Warnung

Wenn mehrere baremetalmachine replace- oder reimage-Befehle gleichzeitig ausgeführt werden oder replace gleichzeitig mit reimage ausgeführt wird, funktionieren Server nicht mehr. Achten Sie darauf, dass ein Vorgang vom Typ replace/reimage vollständig abgeschlossen wurde, bevor Sie einen weiteren starten.

az networkcloud baremetalmachine replace \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUMBER> \
  --subscription <subscriptionID>