Поделиться через


Управление жизненным циклом компьютеров без операционной системы

В этой статье описывается, как выполнять операции управления жизненным циклом на компьютерах без операционной системы (BMM). Эти действия следует использовать для устранения неполадок для восстановления после сбоев или при выполнении действий по обслуживанию. Команды для управления жизненным циклом BMM включают:

Внимание

Не выполняйте никаких действий с серверами управления без первой консультации с персоналом службы поддержки Майкрософт. Это может повлиять на целостность кластера Nexus оператора.

  • Выключение BMM
  • Запуск BMM
  • Перезапуск BMM
  • Сделайте BMM незапланируемым (кордон без эвакуации)
  • Сделайте BMM незапланированных (кордон с эвакуировать)
  • Сделать BMM schedulable (uncordon)
  • Повторное создание BMM
  • Замена BMM

Внимание

Нарушение запросов команд к узлу уровня управления Kubernetes (KCP) отклоняется, если существует еще одна команда аварийного действия, уже запущенная на другом узле KCP или если полная KCP недоступна. Эта проверка выполняется для поддержания целостности экземпляра Nexus и обеспечения того, что несколько узлов KCP не становятся нерабочими одновременно из-за одновременных нарушений. Если несколько узлов становятся нерабочими, это приведет к нарушению нормального порога кворума уровня управления Kubernetes.

Полужирные действия в приведенном выше списке считаются разрушительными (power off, restart, Reimage, Replace). Кордон без эвакуации не считается разрушительным. Кордон с эвакуацией считается разрушительным.

Как отмечалось в заявлении предостережения, выполнение действий с серверами управления, особенно узлами KCP, должно выполняться только в консультации с персоналом службы поддержки Майкрософт.

Необходимые компоненты

  1. Установите последнюю версию соответствующих расширений CLI.
  2. Получите имя группы ресурсов для имени группы ресурсов BMM — имя управляемой группы ресурсов кластера (cluster_MRG).
  3. Получите имя компьютера без операционной системы, требующего операции управления жизненным циклом.
  4. Убедитесь, что целевой компьютер poweredState без операционной системы установлен On и readyState установлен в Trueзначение .
    1. Это условие не применимо к команде start .

Выключение BMM

Эта команда будет power-off указана bareMetalMachineName.

az networkcloud baremetalmachine power-off \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Запуск BMM

Эта команда будет start указана bareMetalMachineName.

az networkcloud baremetalmachine start \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Перезапуск BMM

Эта команда будет restart указана bareMetalMachineName.

az networkcloud baremetalmachine restart \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Сделать BMM незапланированных (кордон)

Чтобы определить, выполняются ли в настоящее время рабочие нагрузки в BMM, выполните следующую команду:

Для виртуальных машин:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Для узлов кластера Nexus Kubernetes: (требуется вход в кластер Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Вы можете сделать BMM незапланируемым, выполнив cordon команду. При выполнении cordon команды рабочие нагрузки Operator Nexus не запланированы в BMM при установке кордона. Любая попытка создать рабочую нагрузку в cordoned BMM приводит к тому, что рабочая нагрузка устанавливается в pending состояние. Существующие рабочие нагрузки продолжают выполняться. Команда cordon поддерживает evacuate параметр со значением по умолчанию False . Рекомендуется задать для этого значение True. При выполнении cordon команды со значением True параметра evacuate рабочие нагрузки, выполняемые в BMM, имеют stopped значение, а BMM — pending состояние.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Удаляет evacuate "True" рабочие нагрузки из этого узла, пока evacuate "False" не позволяет планировать новые рабочие нагрузки.

Сделать BMM "schedulable" (uncordon)

Вы можете сделать BMM "schedulable" (доступный для использования), выполнив uncordon команду. Все рабочие нагрузки в состоянии BMM находятся restarted при pending наличии BMMuncordoned.

az networkcloud baremetalmachine uncordon \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Повторное создание BMM

Вы можете восстановить версию среды выполнения в BMM, reimage выполнив команду. Этот процесс повторно развертывает образ среды выполнения в целевом BMM и выполняет шаги по повторному присоединению кластера с теми же идентификаторами. Это действие не влияет на файлы рабочей нагрузки клиента в этом BMM. Если действие записи или редактирования выполняется на узле через доступ BMM, для восстановления поддержки Майкрософт требуется это действие повторного создания, а изменения будут потеряны, восстановление узла в ожидаемом состоянии. В качестве рекомендации убедитесь, что рабочие нагрузки BMM удаляются с помощью cordon команды перед evacuate "True"выполнением reimage команды.

Предупреждение

Выполнение нескольких baremetalmachine replace или нескольких команд одновременно или reimage выполнение replace reimage одновременно с выполнением нескольких серверов в нерабочем состоянии. Прежде чем начать другую, убедитесь, что она replace/reimage полностью завершена.

az networkcloud baremetalmachine reimage \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Замена BMM

replace Используйте команду, когда сервер сталкивается с аппаратными проблемами, требующими полной или частичной замены оборудования. После замены компонентов, таких как системная плата или сетевая карта (NIC), MAC-адрес BMM изменится, однако IP-адрес iDRAC и имя узла останется прежним.

Предупреждение

Выполнение нескольких baremetalmachine replace или нескольких команд одновременно или reimage выполнение replace reimage одновременно с выполнением нескольких серверов в нерабочем состоянии. Прежде чем начать другую, убедитесь, что она replace/reimage полностью завершена.

az networkcloud baremetalmachine replace \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUMBER> \
  --subscription <subscriptionID>