Поделиться через


Ошибки создания кластера в Azure HDInsight в AKS

Важный

Azure HDInsight на AKS выведено из эксплуатации 31 января 2025 г. Узнайте больше с этим объявлением.

Необходимо перенести рабочие нагрузки в Microsoft Fabric или эквивалентный продукт Azure, чтобы избежать резкого завершения рабочих нагрузок.

Важный

Эта функция сейчас доступна в предварительной версии. Дополнительные условия использования для предварительных версий Microsoft Azure включают дополнительные юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в разделе Информация о предварительной версии Azure HDInsight на AKS. Для получения ответов на вопросы или предложений по функциям отправьте запрос на AskHDInsight с подробной информацией и подписывайтесь, чтобы получать обновления в Azure HDInsight Community.

В этой статье описывается, как устранять ошибки, которые возникают при создании Azure HDInsight в кластерах AKS.

Sr. No Сообщение об ошибке Причина Резолюция
1 ВнутренняяОшибкаСервера НеопознаннаяОшибка Эта ошибка может указывать на неправильный шаблон, используемый. В настоящее время соединители баз данных разрешены только с помощью шаблона ARM. Поэтому проверка конфигурации невозможна в шаблоне.
2 Неправильная спецификация кластера — сбой зависимости службы — недопустимая конфигурация Ошибка: максимальный объём памяти на узел. См. максимальные конфигурации памяти в типах значений свойств .
3 Ожидание истечения времени готовности ресурсов кластера — метасервис не готов. Эта ошибка может быть вызвана тем, что имя контейнера может содержать только строчные буквы, цифры и дефисы. Имя контейнера должно начинаться с буквы или числа. Каждому дефису должен предшествовать и за ним должен следовать символ, не являющийся дефисом. Имя должно быть также длиной от 3 до 63 символов.
4 Конфигурация InvalidClusterSpec -Invalid: ClusterUpsertActivity Ошибка: недопустимое свойство конфигурации hive.metastore.uri: may not be null. См. документацию по соединителю Hive.
5 InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
6 InternalServerError - ObjectDisposedException встречается в коде RP. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
7 PreconditionFailed — сбой операции из-за ограничений квот на подписку пользователя. Перед созданием кластера выполняется проверка квоты. Но при одновременном создании нескольких кластеров в одной подписке возможна ситуация, когда первый кластер занимает квоту, а остальные не создаются из-за недостатка квоты. Убедитесь, что имеется достаточно квоты, и повторите попытку создания кластера или пула кластеров.
8 ReconcileApplicationSecurityGroupError — внутренняя ошибка AKS Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
9 ResourceGroupBeingDeleted Во время создания или обновления ресурсов HDI в AKS пользователь также удаляет некоторые ресурсы в связанных группах ресурсов. Не удаляйте ресурсы в группах ресурсов, связанных с HDI, при создании или обновлении HDI в ресурсах AKS.
10 UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out. Проблема AKS — может быть вызвана высоким трафиком в определенном регионе во время операции. Повторите операцию через некоторое время. По возможности используйте другой регион.
11 Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} Принцип обслуживания услуги 1-p не внедрен в арендатора. Выполните команду, чтобы подготовить принцип службы 1 p для нового клиента для подключения.
12 NotFound - ARM/AKS sdk error Пользователь пытается обновить HDI в кластере AKS, но соответствующий пул агентов был удален. Соответствующий пул агентов удален. Не рекомендуется напрямую управлять пулом агентов AKS.
13 AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi Отсутствие разрешения на выполнение операции. Проверьте, указан ли идентификатор служебной учетной записи, упомянутый в сообщении об ошибке, принадлежащий вам. Если да, предоставьте разрешение в соответствии с сообщением об ошибке. Если нет, откройте запрос в службу поддержки Azure HDInsight.
14 DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespace failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} RP неожиданно переключился на новый экземпляр роли. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
15 EntityStoreOperationError - ARM/AKS sdk error Сбой операции базы данных на стороне AKS во время обновления кластера. Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
16 InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} Эта ошибка вызвана различными проблемами. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
17 InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} Эта ошибка вызвана различными проблемами. Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
18 InternalServerError - Null reference exception occurs in RP code. Эта ошибка вызвана различными проблемами. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
19 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} Эта ошибка вызвана различными проблемами. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
20 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} Эта ошибка вызвана различными проблемами. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
21 OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. Выполняется ещё одна операция с пулом агентов (масштабирование). Эта ошибка вызвана перезагрузкой RP Service Fabric. Дождитесь завершения предыдущей операции перед началом новой операции. Если проблема сохраняется после повтора, откройте запрос в службу поддержки Azure HDInsight.
22 ReconcileVMSSAgentPoolFailed Перед созданием кластера выполняется проверка квоты. Но при одновременном создании нескольких кластеров в рамках одной подписки может возникнуть ситуация, когда первый кластер использует всю квоту, и другие терпят неудачу из-за нехватки квоты. Убедитесь, что квота достаточна, и повторите попытку создания кластера или пула кластера.
23 ReconcileVMSSAgentPoolFailed. Не удалось установить исходящее подключение от агентов AKS/VMSS второстепенная проблема: виртуальная машина сообщила о сбое. Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
24 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} Эта ошибка возникла из-за временной проблемы с подключением SQL. Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
25 NotLatestOperation - ARM/AKS SDK error Операция не может продолжиться. Либо операция была прервана другой операцией, либо информацию, необходимую для операции, не удалось сохранить (или она еще не сохранена). Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
26 ReconcileVMSSAgentPoolFailed - Agent pool drain failed Возникла проблема с операцией уменьшения масштаба. Откройте запрос в службу поддержки в команде Azure HDInsight.
двадцать семь ResourceNotFound - ARM/AKS SDK error Эта ошибка возникает, когда необходимый ресурс удален или удален пользователем. Убедитесь, что ресурс, упомянутый в сообщении об ошибке, существует, а затем повторите операцию. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
28 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.]. Инициализация HMS может прерываться из-за проблем, связанных с сервером SQL или хранилищем. Откройте запрос в службу поддержки в команде Azure HDInsight.
29 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.]. Эта ошибка может возникать из-за того, что keyvault недоступно или секретный ключ недоступен. В некоторых редких случаях эта ошибка может возникать из-за медленной инициализации инфраструктуры идентификации pod на узлах кластера. Если вы включили Log Analytics, проверьте журналы secretprovider-validate job, чтобы определить причину. Повторите операцию через некоторое время, если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
30 FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} Эта ошибка может возникать по разным причинам, таким как проблема с загрузкой изображений, неподготовленность модулей контроллера pod или проблема с MSI. Повторите операцию через некоторое время, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight.
31 FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} Эта ошибка может возникать по различным причинам, таким как проблема с загрузкой изображений, неподготовленные модули под контроллера или проблема с MSI. Повторите операцию через некоторое время, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight.
32 InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}'. Эта ошибка может возникать, если конфигурация службы состоит из компонентов, которые не разрешены. Проверьте компоненты конфигурации службы и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
33 InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies. Эта ошибка может возникать из-за отсутствия служб HMS,SPARK,YARN, эта ошибка может быть связана с хранилищем. Откройте запрос в службу поддержки в команде Azure HDInsight.
34 WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. Откройте запрос в службу поддержки в команде Azure HDInsight.
35 WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} Эта ошибка может возникать из-за отсутствия служб HMS,SPARK,YARN, эта ошибка может быть связана с хранилищем. Откройте запрос в службу поддержки в команде Azure HDInsight.
36 InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value]. Эта ошибка может возникать, когда неподдерживаемые файлы передаются в конфигурации служб. Проверьте компоненты конфигурации службы и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
37 InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." Недопустимые параметры проверки подлинности— расположение хранилища недоступно. Исправьте параметры проверки подлинности и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
38 InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.]. Эта ошибка может возникать, когда ресурсы идентификации pod занимают слишком много времени для запуска на узле, когда pod HMS назначается на выполнение. Повторите операцию, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight.

Дальнейшие действия