Поделиться через


Устранение распространенных ошибок автоматического восстановления узла

Когда Служба Azure Kubernetes (AKS) обнаруживает узел с NotReady состоянием более пяти минут, он пытается автоматически восстановить узел. Автоматическое восстановление узла — это служба с лучшими усилиями. Это не гарантирует, что узел можно восстановить в работоспособном состоянии. Дополнительные сведения см . в процессе автоматического восстановления узла.

В процессе автоматического восстановления узла AKS инициирует rebootreimageи redeploy выполняет действия на неработоспособном узле. Ошибки могут возникать из-за различных причин, и коды ошибок обнаруживаются с помощью событий Kubernetes. События Kubernetes можно использовать для мониторинга состояния узла и действий автоматического восстановления.

В этой статье приводятся потенциальные причины и решения распространенных ошибок автоматического восстановления узлов и описаны рекомендации по мониторингу процесса автоматического восстановления узла.

Предварительные требования

Проверьте следующие события Kubernetes, чтобы определить тип ошибки автоматического восстановления узла:

Причина Сообщение о событии Description
NodeRebootError Не удалось выполнить автоматическое восстановление узла из-за сбоя операции: [код ошибки здесь] Создается при возникновении ошибки с действием reboot .
NodeReimageError Сбой действия повторного восстановления узла из-за сбоя операции: [код ошибки здесь] Создается при возникновении ошибки с действием reimage .
NodeRedeployError Не удалось выполнить автоматическое восстановление узла из-за сбоя операции: [код ошибки здесь] Создается при возникновении ошибки с действием redeploy .

Примечание.

Так как узел уже находится в неработоспособном состоянии до процесса автоматического восстановления, в большинстве случаев ошибки автоматического восстановления узла не влияют на кластер или приложения. При возникновении ошибок автоматического восстановления узла рекомендуется попытаться восстановить узел, следуя инструкциям в разделе "Устранение неполадок с узлами, не готовыми к работе". Если вы не можете восстановить его в Succeeded состоянии и увидеть постоянные ошибки, сообщаемые автоматическим восстановлением узла, обратитесь к поддержка Azure для получения помощи.

Коды распространенных ошибок

Код ошибки Причина и решение
VMExtensionProvisioningError На виртуальной машине не удалось подготовить одно или несколько расширений виртуальной машины. Дополнительные сведения о возможных типах ошибок и шагах по устранению неполадок см. в разделе "Устранение неполадок" ERR_VHD_FILE_NOT_FOUND кода ошибки (124). Чтобы определить точную ошибку подготовки расширения виртуальной машины на узле, просмотрите сведения об ошибке в портал Azure.
InvalidParameter Эта ошибка возникает, если процесс автоматического восстановления узла пытается получить доступ к узлу, который больше не существует.
сбой scaleSetNameAndInstanceIDFromProviderID Эта проблема возникает, когда узел не подготовлен правильно.
Сбой проверки подлинности ManagedIdentityCredential Эта проблема возникает, когда узел не инициализирован правильно.
VMRedeploymentFailed Эта ошибка возникает при попытке повторного развертывания узла. В этом случае пул узлов может ввести состояние сбоя. Дополнительные сведения о потенциальных причинах и действиях по устранению неполадок см. в разделе "Устранение неполадок" Служба Azure Kubernetes кластеров или узлов в состоянии сбоя.
TooManyVMRedeploymentRequests Эта ошибка возникает, когда кластер превышает ограничение для запросов повторного развертывания виртуальных машин. Redeploy — это одно из действий автоматического восстановления узла. Эта ошибка означает, что redeploy действие не может восстановить узел. Сведения об устранении неполадок с "Не готовый узел" см. в статье "Базовое устранение неполадок, не готовых к работе с узлом".
OutboundConnectivityNotEnabledOnVMSS Эта ошибка возникает, когда узел или общий масштабируемый набор виртуальных машин не включает исходящий доступ. Чтобы устранить эту проблему, включите безопасный исходящий доступ для масштабируемого набора с помощью метода, который лучше всего подходит для вашего приложения. Дополнительные сведения см. в разделе "OutboundConnectivityNotEnabledOnVM. Для виртуальной машины не настроено исходящее подключение".

Рекомендации по автоматическому восстановлению узла мониторинга

  • AKS хранит события Kubernetes за последний час по умолчанию. Рекомендуется включить Аналитику контейнеров , чтобы вы могли хранить события до 90 дней. Вы также можете запрашивать события и настраивать оповещения для быстрого обнаружения ошибок автоматического восстановления узла.

  • Автоматическое восстановление узла — это служба с лучшими усилиями. Это не гарантирует, что узел можно восстановить в Ready состоянии. Рекомендуется активно отслеживать и настраивать оповещения для проблем, не готовых к узлам, а также устранять и устранять эти проблемы самостоятельно. Дополнительные сведения см. в статье об основных проблемах, связанных с "Не готовым к работе с узлом".

Свяжитесь с нами для получения помощи

Если у вас есть вопросы или вам нужна помощь, создайте запрос в службу поддержки или обратитесь за поддержкой сообщества Azure. Вы также можете отправить отзыв о продукте в сообщество отзывов Azure.