Устранение распространенных ошибок автоматического восстановления узла
Когда Служба Azure Kubernetes (AKS) обнаруживает узел с NotReady
состоянием более пяти минут, он пытается автоматически восстановить узел. Автоматическое восстановление узла — это служба с лучшими усилиями. Это не гарантирует, что узел можно восстановить в работоспособном состоянии. Дополнительные сведения см . в процессе автоматического восстановления узла.
В процессе автоматического восстановления узла AKS инициирует reboot
reimage
и redeploy
выполняет действия на неработоспособном узле. Ошибки могут возникать из-за различных причин, и коды ошибок обнаруживаются с помощью событий Kubernetes. События Kubernetes можно использовать для мониторинга состояния узла и действий автоматического восстановления.
В этой статье приводятся потенциальные причины и решения распространенных ошибок автоматического восстановления узлов и описаны рекомендации по мониторингу процесса автоматического восстановления узла.
Предварительные требования
Проверьте следующие события Kubernetes, чтобы определить тип ошибки автоматического восстановления узла:
Причина | Сообщение о событии | Description |
---|---|---|
NodeRebootError | Не удалось выполнить автоматическое восстановление узла из-за сбоя операции: [код ошибки здесь] | Создается при возникновении ошибки с действием reboot . |
NodeReimageError | Сбой действия повторного восстановления узла из-за сбоя операции: [код ошибки здесь] | Создается при возникновении ошибки с действием reimage . |
NodeRedeployError | Не удалось выполнить автоматическое восстановление узла из-за сбоя операции: [код ошибки здесь] | Создается при возникновении ошибки с действием redeploy . |
Примечание.
Так как узел уже находится в неработоспособном состоянии до процесса автоматического восстановления, в большинстве случаев ошибки автоматического восстановления узла не влияют на кластер или приложения. При возникновении ошибок автоматического восстановления узла рекомендуется попытаться восстановить узел, следуя инструкциям в разделе "Устранение неполадок с узлами, не готовыми к работе". Если вы не можете восстановить его в Succeeded
состоянии и увидеть постоянные ошибки, сообщаемые автоматическим восстановлением узла, обратитесь к поддержка Azure для получения помощи.
Коды распространенных ошибок
Код ошибки | Причина и решение |
---|---|
VMExtensionProvisioningError | На виртуальной машине не удалось подготовить одно или несколько расширений виртуальной машины. Дополнительные сведения о возможных типах ошибок и шагах по устранению неполадок см. в разделе "Устранение неполадок" ERR_VHD_FILE_NOT_FOUND кода ошибки (124). Чтобы определить точную ошибку подготовки расширения виртуальной машины на узле, просмотрите сведения об ошибке в портал Azure. |
InvalidParameter | Эта ошибка возникает, если процесс автоматического восстановления узла пытается получить доступ к узлу, который больше не существует. |
сбой scaleSetNameAndInstanceIDFromProviderID | Эта проблема возникает, когда узел не подготовлен правильно. |
Сбой проверки подлинности ManagedIdentityCredential | Эта проблема возникает, когда узел не инициализирован правильно. |
VMRedeploymentFailed | Эта ошибка возникает при попытке повторного развертывания узла. В этом случае пул узлов может ввести состояние сбоя. Дополнительные сведения о потенциальных причинах и действиях по устранению неполадок см. в разделе "Устранение неполадок" Служба Azure Kubernetes кластеров или узлов в состоянии сбоя. |
TooManyVMRedeploymentRequests | Эта ошибка возникает, когда кластер превышает ограничение для запросов повторного развертывания виртуальных машин. Redeploy — это одно из действий автоматического восстановления узла. Эта ошибка означает, что redeploy действие не может восстановить узел. Сведения об устранении неполадок с "Не готовый узел" см. в статье "Базовое устранение неполадок, не готовых к работе с узлом". |
OutboundConnectivityNotEnabledOnVMSS | Эта ошибка возникает, когда узел или общий масштабируемый набор виртуальных машин не включает исходящий доступ. Чтобы устранить эту проблему, включите безопасный исходящий доступ для масштабируемого набора с помощью метода, который лучше всего подходит для вашего приложения. Дополнительные сведения см. в разделе "OutboundConnectivityNotEnabledOnVM. Для виртуальной машины не настроено исходящее подключение". |
Рекомендации по автоматическому восстановлению узла мониторинга
AKS хранит события Kubernetes за последний час по умолчанию. Рекомендуется включить Аналитику контейнеров , чтобы вы могли хранить события до 90 дней. Вы также можете запрашивать события и настраивать оповещения для быстрого обнаружения ошибок автоматического восстановления узла.
Автоматическое восстановление узла — это служба с лучшими усилиями. Это не гарантирует, что узел можно восстановить в
Ready
состоянии. Рекомендуется активно отслеживать и настраивать оповещения для проблем, не готовых к узлам, а также устранять и устранять эти проблемы самостоятельно. Дополнительные сведения см. в статье об основных проблемах, связанных с "Не готовым к работе с узлом".
Свяжитесь с нами для получения помощи
Если у вас есть вопросы или вам нужна помощь, создайте запрос в службу поддержки или обратитесь за поддержкой сообщества Azure. Вы также можете отправить отзыв о продукте в сообщество отзывов Azure.