Ошибки создания кластера в Azure HDInsight в AKS
Важный
Azure HDInsight на AKS выведено из эксплуатации 31 января 2025 г. Узнайте больше с этим объявлением.
Необходимо перенести рабочие нагрузки в Microsoft Fabric или эквивалентный продукт Azure, чтобы избежать резкого завершения рабочих нагрузок.
Важный
Эта функция сейчас доступна в предварительной версии. Дополнительные условия использования для предварительных версий Microsoft Azure включают дополнительные юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в разделе Информация о предварительной версии Azure HDInsight на AKS. Для получения ответов на вопросы или предложений по функциям отправьте запрос на AskHDInsight с подробной информацией и подписывайтесь, чтобы получать обновления в Azure HDInsight Community.
В этой статье описывается, как устранять ошибки, которые возникают при создании Azure HDInsight в кластерах AKS.
Sr. No | Сообщение об ошибке | Причина | Резолюция |
---|---|---|---|
1 | ВнутренняяОшибкаСервера НеопознаннаяОшибка | Эта ошибка может указывать на неправильный шаблон, используемый. В настоящее время соединители баз данных разрешены только с помощью шаблона ARM. Поэтому проверка конфигурации невозможна в шаблоне. | |
2 | Неправильная спецификация кластера — сбой зависимости службы — недопустимая конфигурация | Ошибка: максимальный объём памяти на узел. | См. максимальные конфигурации памяти в типах значений свойств . |
3 | Ожидание истечения времени готовности ресурсов кластера — метасервис не готов. | Эта ошибка может быть вызвана тем, что имя контейнера может содержать только строчные буквы, цифры и дефисы. Имя контейнера должно начинаться с буквы или числа. | Каждому дефису должен предшествовать и за ним должен следовать символ, не являющийся дефисом. Имя должно быть также длиной от 3 до 63 символов. |
4 | Конфигурация InvalidClusterSpec -Invalid: ClusterUpsertActivity | Ошибка: недопустимое свойство конфигурации hive.metastore.uri: may not be null . |
См. документацию по соединителю Hive. |
5 |
InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. | |
6 |
InternalServerError - ObjectDisposedException встречается в коде RP. |
Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. | |
7 |
PreconditionFailed — сбой операции из-за ограничений квот на подписку пользователя. |
Перед созданием кластера выполняется проверка квоты. Но при одновременном создании нескольких кластеров в одной подписке возможна ситуация, когда первый кластер занимает квоту, а остальные не создаются из-за недостатка квоты. | Убедитесь, что имеется достаточно квоты, и повторите попытку создания кластера или пула кластеров. |
8 |
ReconcileApplicationSecurityGroupError — внутренняя ошибка AKS |
Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. | |
9 | ResourceGroupBeingDeleted |
Во время создания или обновления ресурсов HDI в AKS пользователь также удаляет некоторые ресурсы в связанных группах ресурсов. | Не удаляйте ресурсы в группах ресурсов, связанных с HDI, при создании или обновлении HDI в ресурсах AKS. |
10 |
UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
Проблема AKS — может быть вызвана высоким трафиком в определенном регионе во время операции. | Повторите операцию через некоторое время. По возможности используйте другой регион. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
Принцип обслуживания услуги 1-p не внедрен в арендатора. | Выполните команду, чтобы подготовить принцип службы 1 p для нового клиента для подключения. |
12 | NotFound - ARM/AKS sdk error |
Пользователь пытается обновить HDI в кластере AKS, но соответствующий пул агентов был удален. | Соответствующий пул агентов удален. Не рекомендуется напрямую управлять пулом агентов AKS. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
Отсутствие разрешения на выполнение операции. | Проверьте, указан ли идентификатор служебной учетной записи, упомянутый в сообщении об ошибке, принадлежащий вам. Если да, предоставьте разрешение в соответствии с сообщением об ошибке. Если нет, откройте запрос в службу поддержки Azure HDInsight. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespace failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP неожиданно переключился на новый экземпляр роли. | Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
Сбой операции базы данных на стороне AKS во время обновления кластера. | Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
Эта ошибка вызвана различными проблемами. | Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
Эта ошибка вызвана различными проблемами. | Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
18 |
InternalServerError - Null reference exception occurs in RP code . |
Эта ошибка вызвана различными проблемами. | Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
Эта ошибка вызвана различными проблемами. | Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
Эта ошибка вызвана различными проблемами. | Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
Выполняется ещё одна операция с пулом агентов (масштабирование). Эта ошибка вызвана перезагрузкой RP Service Fabric. | Дождитесь завершения предыдущей операции перед началом новой операции. Если проблема сохраняется после повтора, откройте запрос в службу поддержки Azure HDInsight. |
22 | ReconcileVMSSAgentPoolFailed |
Перед созданием кластера выполняется проверка квоты. Но при одновременном создании нескольких кластеров в рамках одной подписки может возникнуть ситуация, когда первый кластер использует всю квоту, и другие терпят неудачу из-за нехватки квоты. | Убедитесь, что квота достаточна, и повторите попытку создания кластера или пула кластера. |
23 |
ReconcileVMSSAgentPoolFailed . Не удалось установить исходящее подключение от агентов |
AKS/VMSS второстепенная проблема: виртуальная машина сообщила о сбое. |
Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
Эта ошибка возникла из-за временной проблемы с подключением SQL. | Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
25 | NotLatestOperation - ARM/AKS SDK error |
Операция не может продолжиться. Либо операция была прервана другой операцией, либо информацию, необходимую для операции, не удалось сохранить (или она еще не сохранена). | Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
Возникла проблема с операцией уменьшения масштаба. | Откройте запрос в службу поддержки в команде Azure HDInsight. |
двадцать семь | ResourceNotFound - ARM/AKS SDK error |
Эта ошибка возникает, когда необходимый ресурс удален или удален пользователем. | Убедитесь, что ресурс, упомянутый в сообщении об ошибке, существует, а затем повторите операцию. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
28 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
Инициализация HMS может прерываться из-за проблем, связанных с сервером SQL или хранилищем. | Откройте запрос в службу поддержки в команде Azure HDInsight. |
29 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
Эта ошибка может возникать из-за того, что keyvault недоступно или секретный ключ недоступен. В некоторых редких случаях эта ошибка может возникать из-за медленной инициализации инфраструктуры идентификации pod на узлах кластера. |
Если вы включили Log Analytics, проверьте журналы secretprovider-validate job , чтобы определить причину. Повторите операцию через некоторое время, если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
Эта ошибка может возникать по разным причинам, таким как проблема с загрузкой изображений, неподготовленность модулей контроллера pod или проблема с MSI. | Повторите операцию через некоторое время, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
Эта ошибка может возникать по различным причинам, таким как проблема с загрузкой изображений, неподготовленные модули под контроллера или проблема с MSI. | Повторите операцию через некоторое время, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight. |
32 |
InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
Эта ошибка может возникать, если конфигурация службы состоит из компонентов, которые не разрешены. | Проверьте компоненты конфигурации службы и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
33 |
InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
Эта ошибка может возникать из-за отсутствия служб HMS,SPARK,YARN, эта ошибка может быть связана с хранилищем. | Откройте запрос в службу поддержки в команде Azure HDInsight. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Откройте запрос в службу поддержки в команде Azure HDInsight. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
Эта ошибка может возникать из-за отсутствия служб HMS,SPARK,YARN, эта ошибка может быть связана с хранилищем. | Откройте запрос в службу поддержки в команде Azure HDInsight. |
36 |
InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
Эта ошибка может возникать, когда неподдерживаемые файлы передаются в конфигурации служб. | Проверьте компоненты конфигурации службы и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
Недопустимые параметры проверки подлинности— расположение хранилища недоступно. | Исправьте параметры проверки подлинности и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
38 |
InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
Эта ошибка может возникать, когда ресурсы идентификации pod занимают слишком много времени для запуска на узле, когда pod HMS назначается на выполнение. | Повторите операцию, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight. |
Дальнейшие действия
- Устранениенеполадок конфигурации кластера.