Управление жизненным циклом компьютеров без операционной системы
В этой статье описывается, как выполнять операции управления жизненным циклом на компьютерах без операционной системы (BMM). Эти действия следует использовать для устранения неполадок для восстановления после сбоев или при выполнении действий по обслуживанию. Команды для управления жизненным циклом BMM включают:
Внимание
Не выполняйте никаких действий с серверами управления без первой консультации с персоналом службы поддержки Майкрософт. Это может повлиять на целостность кластера Nexus оператора.
- Выключение BMM
- Запуск BMM
- Перезапуск BMM
- Сделайте BMM незапланируемым (кордон без эвакуации)
- Сделайте BMM незапланированных (кордон с эвакуировать)
- Сделать BMM schedulable (uncordon)
- Повторное создание BMM
- Замена BMM
Внимание
Нарушение запросов команд к узлу уровня управления Kubernetes (KCP) отклоняется, если существует еще одна команда аварийного действия, уже запущенная на другом узле KCP или если полная KCP недоступна. Эта проверка выполняется для поддержания целостности экземпляра Nexus и обеспечения того, что несколько узлов KCP не становятся нерабочими одновременно из-за одновременных нарушений. Если несколько узлов становятся нерабочими, это приведет к нарушению нормального порога кворума уровня управления Kubernetes.
Полужирные действия в приведенном выше списке считаются разрушительными (power off, restart, Reimage, Replace). Кордон без эвакуации не считается разрушительным. Кордон с эвакуацией считается разрушительным.
Как отмечалось в заявлении предостережения, выполнение действий с серверами управления, особенно узлами KCP, должно выполняться только в консультации с персоналом службы поддержки Майкрософт.
Необходимые компоненты
- Установите последнюю версию соответствующих расширений CLI.
- Получите имя группы ресурсов для имени группы ресурсов BMM — имя управляемой группы ресурсов кластера (cluster_MRG).
- Получите имя компьютера без операционной системы, требующего операции управления жизненным циклом.
- Убедитесь, что целевой компьютер
poweredState
без операционной системы установленOn
иreadyState
установлен вTrue
значение .- Это условие не применимо к команде
start
.
- Это условие не применимо к команде
Выключение BMM
Эта команда будет power-off
указана bareMetalMachineName
.
az networkcloud baremetalmachine power-off \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Запуск BMM
Эта команда будет start
указана bareMetalMachineName
.
az networkcloud baremetalmachine start \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Перезапуск BMM
Эта команда будет restart
указана bareMetalMachineName
.
az networkcloud baremetalmachine restart \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Сделать BMM незапланированных (кордон)
Чтобы определить, выполняются ли в настоящее время рабочие нагрузки в BMM, выполните следующую команду:
Для виртуальных машин:
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Для узлов кластера Nexus Kubernetes: (требуется вход в кластер Nexus Kubernetes)
kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
Вы можете сделать BMM незапланируемым, выполнив cordon
команду.
При выполнении cordon
команды рабочие нагрузки Operator Nexus не запланированы в BMM при установке кордона. Любая попытка создать рабочую нагрузку в cordoned
BMM приводит к тому, что рабочая нагрузка устанавливается в pending
состояние. Существующие рабочие нагрузки продолжают выполняться.
Команда cordon поддерживает evacuate
параметр со значением по умолчанию False
.
Рекомендуется задать для этого значение True
. При выполнении cordon
команды со значением True
параметра evacuate
рабочие нагрузки, выполняемые в BMM, имеют stopped
значение, а BMM — pending
состояние.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Удаляет evacuate "True"
рабочие нагрузки из этого узла, пока evacuate "False"
не позволяет планировать новые рабочие нагрузки.
Сделать BMM "schedulable" (uncordon)
Вы можете сделать BMM "schedulable" (доступный для использования), выполнив uncordon
команду. Все рабочие нагрузки в состоянии BMM находятся restarted
при pending
наличии BMMuncordoned
.
az networkcloud baremetalmachine uncordon \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Повторное создание BMM
Вы можете восстановить версию среды выполнения в BMM, reimage
выполнив команду. Этот процесс повторно развертывает образ среды выполнения в целевом BMM и выполняет шаги по повторному присоединению кластера с теми же идентификаторами. Это действие не влияет на файлы рабочей нагрузки клиента в этом BMM. Если действие записи или редактирования выполняется на узле через доступ BMM, для восстановления поддержки Майкрософт требуется это действие повторного создания, а изменения будут потеряны, восстановление узла в ожидаемом состоянии.
В качестве рекомендации убедитесь, что рабочие нагрузки BMM удаляются с помощью cordon
команды перед evacuate "True"
выполнением reimage
команды.
Предупреждение
Выполнение нескольких baremetalmachine replace
или нескольких команд одновременно или reimage
выполнение replace
reimage
одновременно с выполнением нескольких серверов в нерабочем состоянии. Прежде чем начать другую, убедитесь, что она replace
/reimage
полностью завершена.
az networkcloud baremetalmachine reimage \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Замена BMM
replace
Используйте команду, когда сервер сталкивается с аппаратными проблемами, требующими полной или частичной замены оборудования. После замены компонентов, таких как системная плата или сетевая карта (NIC), MAC-адрес BMM изменится, однако IP-адрес iDRAC и имя узла останется прежним.
Предупреждение
Выполнение нескольких baremetalmachine replace
или нескольких команд одновременно или reimage
выполнение replace
reimage
одновременно с выполнением нескольких серверов в нерабочем состоянии. Прежде чем начать другую, убедитесь, что она replace
/reimage
полностью завершена.
az networkcloud baremetalmachine replace \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUMBER> \
--subscription <subscriptionID>