Устранение неполадок с сервером Оператора Azure Nexus

Статья
12/11/2024

В этой статье описывается, как устранять проблемы с сервером с помощью перезапуска, повторного создания и замены действий на компьютерах без операционной системы Azure Nexus (BMM). Возможно, вам потребуется выполнить эти действия на сервере по причинам обслуживания, что приводит к краткому нарушению конкретных СУБМ.

Время, необходимое для выполнения каждого из этих действий, аналогично. Перезапуск является самым быстрым, в то время как замена занимает немного больше времени. Все три действия являются простыми и эффективными способами устранения неполадок.

Внимание

Не выполняйте никаких действий с серверами управления без первой консультации с персоналом службы поддержки Майкрософт. Это может повлиять на целостность кластера Nexus оператора.

Необходимые компоненты

Ознакомьтесь с возможностями, указанными в этой статье, просмотрите действия BMM.
Соберите следующие сведения:
- Имя управляемой группы ресурсов для BMM
- Имя BMM, требующее операции управления жизненным циклом
- ИД подписки

Внимание

Нарушение запросов команд к узлу уровня управления Kubernetes (KCP) отклоняется, если существует еще одна команда аварийного действия, уже запущенная на другом узле KCP или если полная KCP недоступна.

Перезапуск, повторная работа и замена считаются разрушительными действиями.

Эта проверка выполняется для поддержания целостности экземпляра Nexus и обеспечения одновременного падения нескольких узлов KCP из-за одновременных нарушений. Если несколько узлов идут вниз, это разорвит здоровый порог кворума уровня управления Kubernetes.

Определение действия по исправлению

При устранении неполадок BMM для сбоев и определении наиболее подходящего корректирующего действия важно понимать доступные варианты. Перезапуск или повторное создание BMM может быть эффективным и эффективным для устранения проблем или восстановления программного обеспечения в известном состоянии. В случае сбоя одного или нескольких аппаратных компонентов на сервере может потребоваться полностью заменить BMM. В этой статье описаны рекомендации по каждому из этих трех действий.

Для устранения технических проблем требуется систематический подход. Один из эффективных методов — начать с наименее инвазивного решения и при необходимости выполнить более сложные и радикальные меры.

Первым шагом в устранении неполадок является попытка перезапуска устройства или системы. Перезапуск может помочь очистить любые временные сбои или ошибки, которые могут вызвать проблему.

Если перезагрузка не решает проблему, то следующим шагом является попытка повторного создания образа устройства или системы.

Если повторная обработка не решает проблему, последний шаг — заменить неисправный аппаратный компонент. Хотя замена является более значительной мерой, может потребоваться, если проблема связана с дефектом оборудования.

Помните, что эти методы устранения неполадок могут не всегда быть эффективными, а другие факторы в игре могут потребовать другого подхода.

Устранение неполадок с действием перезапуска

Перезапуск BMM — это процесс перезапуска сервера с помощью простого вызова API. Это действие может быть полезно для устранения неполадок, когда виртуальные машины клиента на узле не реагируют или в противном случае зависают.

Перезапуск обычно является отправной точкой для устранения проблемы.

Следующая команда Azure CLI будет power-off указана bareMetalMachineName.

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Следующая команда Azure CLI будет start указана bareMetalMachineName.

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Следующая команда Azure CLI будет restart указана bareMetalMachineName.

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Устранение неполадок с действием повторного воспроизведения

Повторное создание BMM — это процесс, используемый для повторного развертывания образа на диске ОС, не затрагивая данные клиента. Это действие выполняет шаги для повторного входа в кластер с теми же идентификаторами.

Действие повторного создания образов может быть полезно для устранения неполадок, восстанавливая ОС в известном рабочем состоянии. Распространенные причины, которые можно устранить путем повторного создания образа, включают восстановление из-за сомнений целостности узла, предполагаемого или подтвержденного компрометации безопасности или действия записи с нарушением состояния.

Действие повторного создания — это рекомендация для наименьшего операционного риска для обеспечения целостности BMM.

В качестве рекомендации убедитесь, что рабочие нагрузки BMM удаляются с помощью команды кордона с эвакуированием "True", прежде чем выполнять команду повторного создания образа.

Чтобы определить, выполняются ли в настоящее время рабочие нагрузки в BMM, выполните следующую команду:

Для виртуальных машин:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Для узлов кластера Nexus Kubernetes: (требуется вход в кластер Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Следующая команда Azure CLI будет cordon указана bareMetalMachineName.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Следующая команда Azure CLI будет reimage указана bareMetalMachineName.

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Следующая команда Azure CLI будет uncordon указана bareMetalMachineName.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Устранение неполадок с действием замены

Серверы содержат множество физических компонентов, которые могут выполнять отработку отказа. Важно понимать, какие физические ремонты требуют замены BMM и когда рекомендуется замена BMM.

Вызывается процесс проверки оборудования, чтобы обеспечить целостность физического узла перед развертыванием образа ОС. Как и действие повторного воспроизведения, данные клиента не изменяются во время замены.

Внимание

Начиная с версии API общедоступной версии 2024-07-01, контроллер RAID сбрасывается во время замены BMM, обтирая все данные с виртуальных дисков сервера. Оповещения о виртуальных дисках контроллера управления базовой доски (BMC), активируемые во время замены BMM, могут игнорироваться, если нет дополнительных оповещений физических дисков и (или) контроллеров RAID.

Рекомендуется сначала выполнить cordon команду, чтобы удалить компьютер без операционной системы из планирования рабочей нагрузки, а затем завершить работу BMM до физического восстановления.

Следующая команда Azure CLI будет cordon указана bareMetalMachineName.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

При выполнении восстановления физического горячего переключения питания действие замены не требуется, так как узел BMM будет продолжать работать нормально после восстановления.

При выполнении следующих физических исправлений рекомендуется действие замены, хотя не обязательно вернуть BMM в службу:

ЦП
Модуль двойной встроенной памяти (DIMM)
Вентилятор
Подъемная доска расширения
Приемопередатчик
Замена кабеля Ethernet или волокна

При выполнении следующих физических исправлений необходимо выполнить действие замены, чтобы вернуть BMM в службу:

Объединительная плата
Системная плата
Диск SSD
Адаптер PERC/RAID
Карта сетевого интерфейса Mellanox (сетевая карта)
Встроенный сетевой адаптер Broadcom

После завершения физического восстановления выполните действие замены.

Следующая команда Azure CLI будет replace указана bareMetalMachineName.

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID>

Следующая команда Azure CLI отменит указанную команду bareMetalMachineName.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Итоги

Перезапуск, повторное копирование и замена являются эффективными методами устранения неполадок, которые можно использовать для устранения технических проблем. Однако важно иметь систематический подход и рассмотреть другие факторы, прежде чем пытаться принять какие-либо радикальные меры. Дополнительные сведения о действиях BMM см. в статье о действиях BMM.

Если у вас по-прежнему есть вопросы, обратитесь в службу поддержки. Дополнительные сведения о планах поддержки см . в планах поддержки Azure.

Поделиться через

Устранение неполадок с сервером Оператора Azure Nexus

Необходимые компоненты

Определение действия по исправлению

Устранение неполадок с действием перезапуска

Устранение неполадок с действием повторного воспроизведения

Устранение неполадок с действием замены

Итоги

Обратная связь

Дополнительные ресурсы