Устранение неполадок при подготовке BMM в кластере Оператора Azure Nexus
В рамках действия развертывания кластера компьютеры без операционной системы (BMM) подготавливаются с ролями, необходимыми для участия в кластере. Этот документ поддерживает устранение распространенных проблем с подготовкой с помощью Azure CLI, портал Azure и контроллера управления базовой платой сервера (BMC). Для платформы Оператора Azure Nexus базовый серверный оборудование использует интегрированный контроллер удаленного доступа Dell (iDRAC) в качестве BMC. Подготовка использует интерфейс Preboot eXecution Environment (PXE) для загрузки операционной системы (OS) в BMM.
Необходимые компоненты
- Установите последнюю версию соответствующих расширений CLI.
- Соберите следующие сведения:
- Идентификатор подписки (
SUBSCRIPTION
) - Имя кластера (
CLUSTER
) - Группа ресурсов (
CLUSTER_RG
) - Управляемая группа ресурсов (
CLUSTER_MRG
)
- Идентификатор подписки (
- Запрос доступа к подписке для выполнения команд расширения azure Nexus Network Fabric (NF) и сетевого облачного интерфейса командной строки.
- Войдите в Azure CLI и выберите подписку, в которой развернут кластер.
Роли BMM
Для конкретной версии роли требуются для управления базовым кластером Kubernetes и управления им.
Следующие роли назначаются ресурсам BMM (см . справочник по ролям BMM):
- Плоскость управления: BMM, ответственный за запуск агентов уровня управления Kubernetes для кластера.
- Плоскость управления: BMM отвечает за запуск агентов платформы, включая контроллеры и расширения.
- Плоскость вычислений: BMM отвечает за выполнение фактических рабочих нагрузок клиента, включая кластеры Kubernetes и виртуальные машины.
Вывод списка состояния BMM
Следующая команда содержит список всех bareMetalMachineName
ресурсов в управляемой группе ресурсов с простым состоянием:
az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table
Name ResourceGroup DetailedStatus DetailedStatusMessage
------------ ----------------------------- ---------------- ---------------------------------------
BMM_NAME CLUSTER_MRG STATUS STATUS_MSG
Процесс проходит по этапам, определенным в следующей таблице в процессе подготовки BMM (см. STATUS
сведения о состоянии BMM в понятиях вычислений Оператора Azure Nexus):
Этап | Действия |
---|---|
Registering |
Проверяет учетные данные подключения BMC/BMC и добавляет BMM в службу подготовки. |
Preparing |
Перезагружает BMM, сбрасывает BMC и проверяет состояние питания. |
Inspecting |
Обновляет встроенное ПО, применяет параметры BIOS и настраивает хранилище. |
Available |
Указывает, что BMM готов к установке ОС. |
Provisioning |
Указывает, что образ ОС устанавливается на BMM. После установки ОС BMM пытается присоединиться к кластеру. |
Provisioned |
Указывает, что BMM успешно подготовлен и присоединен к кластеру. |
Deprovisioning |
Указывает, что сбой подготовки BMM. Служба подготовки очищает ресурс для повторных попыток. |
Failed |
Указывает, что сбой подготовки BMM и восстановление вручную требуется. Все повторные попытки исчерпаны. |
На любом этапе для подробного состояния BMM задано Failed
значение . Этап блокируется, если возникают какие-либо из следующих сбоев:
- BMC недоступен.
- Сетевой порт отключен.
- Сбой аппаратного компонента.
Чтобы получить более подробное состояние BMM, выполните следующие действия.
az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table
Name ReadyState ProvisioningState DetailedStatus DetailedStatusMessage PowerState MachineRoles CreatedAt
------------ ---------- ----------------- -------------- ----------------------------------------- ---------- ------------------------------------------------ -----------
BMM_NAME RSTATE PROV_STATE STATUS STATUS_MSG POWER_STATE BMM_ROLE CREATE_DATE
В следующей таблице перечислены значения, в которых определены выходные данные.
Выходные данные | Определение |
---|---|
BMM_NAME |
Имя BMM. |
RSTATE |
Состояние участия кластера (True ,False ). |
PROV_STATE |
Состояние подготовки (Succeeded ,Failed ). |
STATUS |
Подготовка подробного состояния (Registering ,,Preparing ,Available Inspecting ,Provisioning ,Provisioned ,;Failed Deprovisioning ). |
STATUS_MSG |
Подробное сообщение о состоянии подготовки. |
POWER_STATE |
Состояние питания BMM (On ,Off ). |
BMM_ROLE |
Роль кластера BMM (control-plane ,management-plane ,compute-plane ). |
CREATE_DATE |
Дата создания BMM. |
Например:
x01dev01c01w01 True Succeeded Provisioned The OS is provisioned to the machine On platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
x01dev01c01w01 False Failed Preparing Preparing for provisioning of the machine Off platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
Сведения о BMM
Чтобы отобразить сведения и состояние одного BMM, выполните следующие действия.
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME
Сведения о BMM, относящиеся к устранению неполадок:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Устранение неполадок с состоянием подготовки сбоем
Следующие условия могут привести к сбоям подготовки.
Тип ошибки | Разрешение |
---|---|
BMC показывает Backplane Comm критичную ошибку. |
1. Запустите удаленный слив БММ. 2. Выполнение физического блохого стока BMM. 3. Запустите действие BMM replace . |
Ответ на сетевые данные загрузки (PXE) пуст из BMC. | 1. Сброс порта на устройстве Fabric. 2. Запустите удаленный слив БММ. 3. Выполнение физического блохого стока BMM. 4. Запустите действие BMM replace . |
Несоответствие MAC-адреса загрузки (PXE). | 1. Проверьте данные MAC-адреса BMM на основе данных BMC. 2. Запустите удаленный слив БММ. 3. Выполнение физического блохого стока BMM. 4. Запустите действие BMM replace . |
Несоответствие MAC-адреса BMC. | 1. Проверьте данные MAC-адреса BMM на основе данных BMC. 2. Запустите удаленный слив БММ. 3. Выполнение физического блохого стока BMM. 4. Запустите действие BMM replace . |
Ответ на данные диска пуст из BMC. | 1. Удалите или замените диск. 2. Удалите или замените контроллер хранилища. 3. Запустите удаленный слив БММ. 4. Выполнение физического блохого стока BMM. 5. Запустите действие BMM replace . |
BMC недоступен. | 1. Сброс порта на устройстве Fabric. 2. Удалите или замените кабель. 3. Запустите удаленный слив БММ. 4. Выполнение физического блохого стока BMM. 5. Запустите действие BMM replace . |
BMC завершается ошибкой входа. | 1. Обновление учетных данных в BMC. 2. Запустите действие BMM replace . |
Критические ошибки памяти, ЦП, OEM на BMC. | 1. Устранение проблемы с оборудованием при удалении или замене. 2. Запустите удаленный слив БММ. 3. Выполнение физического блохого стока BMM. 4. Запустите действие BMM replace . |
Консоль зависла в меню загрузчика (GRUB). | 1. Выполните сброс NVRAM. 2. Запустите действие BMM replace . |
Журнал действий Azure BMM
- Войдите на портал Azure.
- Выполните поиск по имени BMM в верхнем поле поиска .
- Выберите имя компьютера без операционной системы (Оператор Nexus) в результатах поиска.
- В меню службы выберите журнал действий.
- Убедитесь, что значение Timespan охватывает период подготовки.
BareMetalMachines_Update
Разверните операцию и выберите все СУБД, которые показываютFailed
состояние.- Перейдите на вкладку JSON, чтобы получить подробное сообщение о состоянии.
Найдите ошибки, связанные с недопустимыми учетными данными или если BMC недоступен.
Определение IPv4-адреса BMC
IPv4-адрес BMC (BMC_IP
) находится в Connect
значении, возвращаемом из предыдущего раздела "Сведения О BMM".
Проверка MAC-адреса BMM на основе данных BMC
Чтобы получить сведения об MAC-адресе из BMM, выполните следующие действия.
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Проверьте данные MAC-адреса для BMC через веб-интерфейс:
BMC
>Dashboard
: отображает MAC-адрес BMC.BMC
>System Info
>Network
>Embedded.1-1-1
: отображает загрузочный MAC-адрес.
Убедитесь, что MAC-адрес используется racadm
из прыжкового ящика с доступом к сети BMC:
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address " #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1" #Boot MAC
Если MAC-адрес, предоставленный кластеру, неверный, используйте действие BMM в действиях BMM replace
для исправления адресов.
Проверка подключения BMC для проверки связи
Попытайтесь выполнить ping
команду с IPv4-адресом BMC:
Получите IPv4-адрес (
BMC_IP
) из предыдущего раздела "Определение IPv4-адреса BMC".Тестирование
ping
на BMC:Чтобы проверить доступ к сети BMC из прыжка:
ping $BMC_IP -c 3
Чтобы протестировать узел уровня управления BMM с помощью Azure CLI:
az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
Сброс порта на устройстве Fabric
Если BMC_IP
он не отвечает, сброс порта устройства fabric извлекит автозаготовку на порте и может вернуть его в режим "в сети".
Чтобы найти порт из Azure, выполните Network Fabric
следующие действия.
RackID
Получите иRackSlot
значения из предыдущего раздела "Сведения о BMM".В портал Azure выполните детализацию до идентификатора стойки сетевой стойки для BMM.
Перейдите на вкладку "Сетевые устройства" и выберите переключатель управления (Mgmt) для стойки.
В разделе "Ресурсы" выберите сетевые интерфейсы. Затем выберите интерфейс BMC (iDRAC) или загрузочный интерфейс (PXE) для порта, требующего сброса.
Соберите следующие сведения:
- Группа ресурсов Network Fabric (
NF_RG
) - Имя устройства (
NF_DEVICE_NAME
) - Имя интерфейса (
NF_DEVICE_INTERFACE_NAME
)
- Группа ресурсов Network Fabric (
Сброс порта:
Чтобы сбросить порт с помощью Azure CLI, выполните следующие действия.
az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
Удаленная очистка питания BMM (блохий слив)
Чтобы выполнить удаленный слив блох против BMM через пользовательский интерфейс BMC:
Выберите параметры>BIOS конфигурации>BMC>для других параметров.
В разделе "Запрос на цикл питания" выберите полный цикл питания. Затем нажмите кнопку Применить и перезагрузить.
Выполните удаленную очистку блох с помощью racadm
прыжка с доступом к сети BMC:
racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle
Физическое питание BMM (блохо-слив)
Для физического блохого стока местный сайт физически отключает кабели питания от обоих адаптеров питания в течение пяти минут, а затем восстановите мощность. Этот процесс гарантирует, что сервер, capacitors и все компоненты полностью удаляют питание и очищаются все кэшированные данные.
Сброс NVRAM
Если при подготовке произошел сбой из-за ошибки OEM или оборудования, последовательность загрузки может быть заблокирована в NVRAM PXE boot
вместо отображения hdd
или hard drive
перечисления в порядке загрузки.
Обычно это условие показывает BMM на этапе загрузки на консоли и блокируется без вмешательства ручного нажатия клавиш.
Чтобы сбросить NVRAM, используйте следующую последовательность в пользовательском интерфейсе BMC:
Выберите параметр "Сброс диагностики>обслуживания>" iDrac до заводских значений по умолчанию.
Выберите " Отменить все параметры", но сохраните параметры пользователя и сети, а затем нажмите кнопку "Применить и перезагрузить".
Сброс пароля BMC
Если в журнале действий указаны недопустимые учетные данные в BMC, выполните следующую команду из прыжка с доступом к сети BMC:
racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD set iDRAC.Users.2.Password $BMC_PWD
Добавление серверов обратно в кластер после восстановления
После исправления оборудования запустите действие BMM replace
, выполнив инструкции по управлению жизненным циклом компьютеров без операционной системы.
Связанный контент
- Если у вас по-прежнему есть вопросы, обратитесь к поддержка Azure.
- Дополнительные сведения о планах поддержки см. на странице Планы поддержки Azure.