Поделиться через


Устранение неполадок при подготовке BMM в кластере Оператора Azure Nexus

В рамках действия развертывания кластера компьютеры без операционной системы (BMM) подготавливаются с ролями, необходимыми для участия в кластере. Этот документ поддерживает устранение распространенных проблем с подготовкой с помощью Azure CLI, портал Azure и контроллера управления базовой платой сервера (BMC). Для платформы Оператора Azure Nexus базовый серверный оборудование использует интегрированный контроллер удаленного доступа Dell (iDRAC) в качестве BMC. Подготовка использует интерфейс Preboot eXecution Environment (PXE) для загрузки операционной системы (OS) в BMM.

Необходимые компоненты

  1. Установите последнюю версию соответствующих расширений CLI.
  2. Соберите следующие сведения:
    • Идентификатор подписки (SUBSCRIPTION)
    • Имя кластера (CLUSTER)
    • Группа ресурсов (CLUSTER_RG)
    • Управляемая группа ресурсов (CLUSTER_MRG)
  3. Запрос доступа к подписке для выполнения команд расширения azure Nexus Network Fabric (NF) и сетевого облачного интерфейса командной строки.
  4. Войдите в Azure CLI и выберите подписку, в которой развернут кластер.

Роли BMM

Для конкретной версии роли требуются для управления базовым кластером Kubernetes и управления им.

Следующие роли назначаются ресурсам BMM (см . справочник по ролям BMM):

  • Плоскость управления: BMM, ответственный за запуск агентов уровня управления Kubernetes для кластера.
  • Плоскость управления: BMM отвечает за запуск агентов платформы, включая контроллеры и расширения.
  • Плоскость вычислений: BMM отвечает за выполнение фактических рабочих нагрузок клиента, включая кластеры Kubernetes и виртуальные машины.

Вывод списка состояния BMM

Следующая команда содержит список всех bareMetalMachineName ресурсов в управляемой группе ресурсов с простым состоянием:

az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table

Name          ResourceGroup                  DetailedStatus    DetailedStatusMessage
------------  -----------------------------  ----------------  ---------------------------------------
BMM_NAME      CLUSTER_MRG                    STATUS            STATUS_MSG

Процесс проходит по этапам, определенным в следующей таблице в процессе подготовки BMM (см. STATUS сведения о состоянии BMM в понятиях вычислений Оператора Azure Nexus):

Этап Действия
Registering Проверяет учетные данные подключения BMC/BMC и добавляет BMM в службу подготовки.
Preparing Перезагружает BMM, сбрасывает BMC и проверяет состояние питания.
Inspecting Обновляет встроенное ПО, применяет параметры BIOS и настраивает хранилище.
Available Указывает, что BMM готов к установке ОС.
Provisioning Указывает, что образ ОС устанавливается на BMM. После установки ОС BMM пытается присоединиться к кластеру.
Provisioned Указывает, что BMM успешно подготовлен и присоединен к кластеру.
Deprovisioning Указывает, что сбой подготовки BMM. Служба подготовки очищает ресурс для повторных попыток.
Failed Указывает, что сбой подготовки BMM и восстановление вручную требуется. Все повторные попытки исчерпаны.

На любом этапе для подробного состояния BMM задано Failedзначение . Этап блокируется, если возникают какие-либо из следующих сбоев:

  • BMC недоступен.
  • Сетевой порт отключен.
  • Сбой аппаратного компонента.

Чтобы получить более подробное состояние BMM, выполните следующие действия.

az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table

Name            ReadyState    ProvisioningState    DetailedStatus    DetailedStatusMessage                      PowerState    MachineRoles                                      CreatedAt
------------    ----------    -----------------    --------------    -----------------------------------------  ----------    ------------------------------------------------  -----------
BMM_NAME        RSTATE        PROV_STATE           STATUS            STATUS_MSG                                 POWER_STATE   BMM_ROLE                                          CREATE_DATE

В следующей таблице перечислены значения, в которых определены выходные данные.

Выходные данные Определение
BMM_NAME Имя BMM.
RSTATE Состояние участия кластера (True,False).
PROV_STATE Состояние подготовки (Succeeded,Failed).
STATUS Подготовка подробного состояния (Registering,,Preparing,AvailableInspecting,Provisioning,Provisioned,;FailedDeprovisioning).
STATUS_MSG Подробное сообщение о состоянии подготовки.
POWER_STATE Состояние питания BMM (On,Off).
BMM_ROLE Роль кластера BMM (control-plane,management-plane,compute-plane).
CREATE_DATE Дата создания BMM.

Например:

x01dev01c01w01  True          Succeeded            Provisioned       The OS is provisioned to the machine       On            platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z
x01dev01c01w01  False         Failed               Preparing         Preparing for provisioning of the machine  Off           platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z

Сведения о BMM

Чтобы отобразить сведения и состояние одного BMM, выполните следующие действия.

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME

Сведения о BMM, относящиеся к устранению неполадок:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Устранение неполадок с состоянием подготовки сбоем

Следующие условия могут привести к сбоям подготовки.

Тип ошибки Разрешение
BMC показывает Backplane Comm критичную ошибку. 1. Запустите удаленный слив БММ.
2. Выполнение физического блохого стока BMM.
3. Запустите действие BMM replace .
Ответ на сетевые данные загрузки (PXE) пуст из BMC. 1. Сброс порта на устройстве Fabric.
2. Запустите удаленный слив БММ.
3. Выполнение физического блохого стока BMM.
4. Запустите действие BMM replace .
Несоответствие MAC-адреса загрузки (PXE). 1. Проверьте данные MAC-адреса BMM на основе данных BMC.
2. Запустите удаленный слив БММ.
3. Выполнение физического блохого стока BMM.
4. Запустите действие BMM replace .
Несоответствие MAC-адреса BMC. 1. Проверьте данные MAC-адреса BMM на основе данных BMC.
2. Запустите удаленный слив БММ.
3. Выполнение физического блохого стока BMM.
4. Запустите действие BMM replace .
Ответ на данные диска пуст из BMC. 1. Удалите или замените диск.
2. Удалите или замените контроллер хранилища.
3. Запустите удаленный слив БММ.
4. Выполнение физического блохого стока BMM.
5. Запустите действие BMM replace .
BMC недоступен. 1. Сброс порта на устройстве Fabric.
2. Удалите или замените кабель.
3. Запустите удаленный слив БММ.
4. Выполнение физического блохого стока BMM.
5. Запустите действие BMM replace .
BMC завершается ошибкой входа. 1. Обновление учетных данных в BMC.
2. Запустите действие BMM replace .
Критические ошибки памяти, ЦП, OEM на BMC. 1. Устранение проблемы с оборудованием при удалении или замене.
2. Запустите удаленный слив БММ.
3. Выполнение физического блохого стока BMM.
4. Запустите действие BMM replace .
Консоль зависла в меню загрузчика (GRUB). 1. Выполните сброс NVRAM.
2. Запустите действие BMM replace .

Журнал действий Azure BMM

  1. Войдите на портал Azure.
  2. Выполните поиск по имени BMM в верхнем поле поиска .
  3. Выберите имя компьютера без операционной системы (Оператор Nexus) в результатах поиска.
  4. В меню службы выберите журнал действий.
  5. Убедитесь, что значение Timespan охватывает период подготовки.
  6. BareMetalMachines_Update Разверните операцию и выберите все СУБД, которые показывают Failed состояние.
  7. Перейдите на вкладку JSON, чтобы получить подробное сообщение о состоянии.

Найдите ошибки, связанные с недопустимыми учетными данными или если BMC недоступен.

Определение IPv4-адреса BMC

IPv4-адрес BMC (BMC_IP) находится в Connect значении, возвращаемом из предыдущего раздела "Сведения О BMM".

Проверка MAC-адреса BMM на основе данных BMC

Чтобы получить сведения об MAC-адресе из BMM, выполните следующие действия.

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Проверьте данные MAC-адреса для BMC через веб-интерфейс:

  • BMC>Dashboard: отображает MAC-адрес BMC.
  • BMC>System Info>Network>Embedded.1-1-1: отображает загрузочный MAC-адрес.

Убедитесь, что MAC-адрес используется racadm из прыжкового ящика с доступом к сети BMC:

racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address "        #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1"  #Boot MAC

Если MAC-адрес, предоставленный кластеру, неверный, используйте действие BMM в действиях BMM replace для исправления адресов.

Проверка подключения BMC для проверки связи

Попытайтесь выполнить ping команду с IPv4-адресом BMC:

  1. Получите IPv4-адрес (BMC_IP) из предыдущего раздела "Определение IPv4-адреса BMC".

  2. Тестирование ping на BMC:

    Чтобы проверить доступ к сети BMC из прыжка:

    ping $BMC_IP -c 3
    

    Чтобы протестировать узел уровня управления BMM с помощью Azure CLI:

    az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
    

Сброс порта на устройстве Fabric

Если BMC_IP он не отвечает, сброс порта устройства fabric извлекит автозаготовку на порте и может вернуть его в режим "в сети".

Чтобы найти порт из Azure, выполните Network Fabric следующие действия.

  1. RackID Получите и RackSlot значения из предыдущего раздела "Сведения о BMM".

  2. В портал Azure выполните детализацию до идентификатора стойки сетевой стойки для BMM.

  3. Перейдите на вкладку "Сетевые устройства" и выберите переключатель управления (Mgmt) для стойки.

  4. В разделе "Ресурсы" выберите сетевые интерфейсы. Затем выберите интерфейс BMC (iDRAC) или загрузочный интерфейс (PXE) для порта, требующего сброса.

    Соберите следующие сведения:

    • Группа ресурсов Network Fabric (NF_RG)
    • Имя устройства (NF_DEVICE_NAME)
    • Имя интерфейса (NF_DEVICE_INTERFACE_NAME)
  5. Сброс порта:

    Чтобы сбросить порт с помощью Azure CLI, выполните следующие действия.

    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable
    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
    

Удаленная очистка питания BMM (блохий слив)

Чтобы выполнить удаленный слив блох против BMM через пользовательский интерфейс BMC:

  1. Выберите параметры>BIOS конфигурации>BMC>для других параметров.

  2. В разделе "Запрос на цикл питания" выберите полный цикл питания. Затем нажмите кнопку Применить и перезагрузить.

Выполните удаленную очистку блох с помощью racadm прыжка с доступом к сети BMC:

racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle

Физическое питание BMM (блохо-слив)

Для физического блохого стока местный сайт физически отключает кабели питания от обоих адаптеров питания в течение пяти минут, а затем восстановите мощность. Этот процесс гарантирует, что сервер, capacitors и все компоненты полностью удаляют питание и очищаются все кэшированные данные.

Сброс NVRAM

Если при подготовке произошел сбой из-за ошибки OEM или оборудования, последовательность загрузки может быть заблокирована в NVRAM PXE boot вместо отображения hdd или hard drive перечисления в порядке загрузки.

Обычно это условие показывает BMM на этапе загрузки на консоли и блокируется без вмешательства ручного нажатия клавиш.

Чтобы сбросить NVRAM, используйте следующую последовательность в пользовательском интерфейсе BMC:

  1. Выберите параметр "Сброс диагностики>обслуживания>" iDrac до заводских значений по умолчанию.

  2. Выберите " Отменить все параметры", но сохраните параметры пользователя и сети, а затем нажмите кнопку "Применить и перезагрузить".

Сброс пароля BMC

Если в журнале действий указаны недопустимые учетные данные в BMC, выполните следующую команду из прыжка с доступом к сети BMC:

racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD  set iDRAC.Users.2.Password $BMC_PWD

Добавление серверов обратно в кластер после восстановления

После исправления оборудования запустите действие BMM replace , выполнив инструкции по управлению жизненным циклом компьютеров без операционной системы.