Azure HDInsight 在 AKS 上的群集创建错误
重要
AKS 上的 Azure HDInsight 已于 2025 年 1 月 31 日停用。 请在此公告 中了解更多。
需要将工作负荷迁移到 Microsoft Fabric 或等效的 Azure 产品,以避免工作负荷突然终止。
重要
此功能目前以预览版提供。 Microsoft Azure 预览版补充使用条款 包括更多法律条款,适用于 beta 版、预览版或尚未正式发布的 Azure 功能。 有关此特定预览的信息,请参阅 AKS 预览信息的 Azure HDInsight。 有关问题或功能建议,请在 AskHDInsight 上提交请求,并提供详细信息。关注我们以获取有关 Azure HDInsight 社区 的更多更新。
本文介绍如何排查和解决在 AKS 群集上创建 Azure HDInsight 时可能发生的错误。
Sr. No. No. | 错误信息 | 原因 | 分辨率 |
---|---|---|---|
1 | 内部服务器错误 未识别错误 | 此错误可能指示使用的模板不正确。 目前,仅允许通过 ARM 模板使用数据库连接器。 因此,模板上无法验证配置。 | |
2 | InvalidClusterSpec - ServiceDependencyFailure - 配置无效 | 每个节点的最大内存错误。 | 请参阅 的最大内存配置和属性值类型。 |
3 | 等待集群资源就绪超时 - 元数据服务未就绪 | 此错误可能是由于容器名称只能包含小写字母、数字和连字符。 容器名称必须以字母或数字开头。 | 每个连字符前后都必须有一个非连字符的字符。 该名称的长度必须介于 3 到 63 个字符之间。 |
4 | 无效的ClusterSpec -Invalid 配置 - ClusterUpsertActivity | 错误:配置属性 hive.metastore.uri: may not be null 无效。 |
请参阅 Hive 连接器文档。 |
5 |
InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call 。 |
重试操作,或向 Azure HDInsight 团队提交支持请求。 | |
6 |
InternalServerError - ObjectDisposedException 出现在 RP 代码中。 |
重试该操作或向 Azure HDInsight 团队提交支持请求。 | |
7 |
PreconditionFailed - 由于用户订阅的配额限制,操作失败。 |
群集创建前有配额验证。 但是,当多个群集同时在同一订阅下创建时,第一个群集可能会占用配额,而另一个群集由于配额短缺而失败。 | 确认有足够的配额并重试群集/群集池的创建。 |
8 |
ReconcileApplicationSecurityGroupError - 内部 AKS 错误 |
重试该操作或向 Azure HDInsight 团队开具支持请求。 | |
9 | ResourceGroupBeingDeleted |
在 AKS 资源创建或更新上的 HDI 期间,用户还会删除相关资源组中的某些资源。 | 创建或更新 AKS 资源上的 HDI 时,请勿删除 HDI 相关资源组中的资源。 |
10 |
UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out 。 |
AKS 问题 – 可能是由于操作时某个特定区域流量较高。 | 等一段时间后再重试该操作。 如果可能,请使用另一个区域。 |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
1 p 服务原则未纳入租户。 | 执行命令,为新租户预配 1-p 服务主体以便进行对接。 |
12 | NotFound - ARM/AKS sdk error |
用户尝试更新 AKS 群集上的 HDI,但已删除相应的代理池。 | 已删除相应的代理池。 不建议直接操作 AKS 节点池。 |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
缺少执行操作的权限。 | 请检查错误消息中提到的服务主体应用 ID 是否属于您。 如果是,请根据错误消息授予权限。 如果没有,请向 Azure HDInsight 团队开具支持票证。 |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespace failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP 意外切换到新角色实例。 | 重试操作或向 Azure HDInsight 团队提交支持请求。 |
15 | EntityStoreOperationError - ARM/AKS sdk error |
在 AKS 端进行群集更新时,数据库操作失败。 | 请稍后再试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
此错误是由于各种问题引起的。 | 重试操作或向 Azure HDInsight 团队提交支持请求。 |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
此错误是由于各种问题引起的。 | 过一段时间后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
18 |
InternalServerError - Null reference exception occurs in RP code 。 |
此错误是由于各种问题引起的。 | 重试该操作或向 Azure HDInsight 团队提交支持工单。 |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
此错误是由于各种问题引起的。 | 重试操作,或向 Azure HDInsight 团队提交支持请求。 |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
此错误是由于各种问题引起的。 | 重试操作或向 Azure HDInsight 团队提交支持请求。 |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
另一个代理池操作(扩展)正在进行中。 此错误是由于 RP Service Fabric 重新启动导致的。 | 等待上一个操作完成后,再开始新的操作。 如果问题在重试后仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
22 | ReconcileVMSSAgentPoolFailed |
群集创建前有配额验证。 但是,当多个群集同时在同一订阅下创建时,第一个群集可能会占用配额,而其他群集由于配额短缺而失败。 | 确认有足够的配额并重试群集/群集池的创建。 |
23 |
ReconcileVMSSAgentPoolFailed - 无法从代理建立出站连接 |
AKS/VMSS 端问题:VM 报告了失败。 |
稍后再试操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
此错误是由于暂时性 SQL 连接问题导致的。 | 请在一段时间之后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
25 | NotLatestOperation - ARM/AKS SDK error |
操作无法继续。 操作已被另一个操作抢先,或者操作所需的信息保存失败(或者尚未被保存)。 | 稍后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
缩减操作出现了问题。 | 向 Azure HDInsight 团队提交支持请求。 |
27 | ResourceNotFound - ARM/AKS SDK error |
当用户移除或删除所需资源时,会发生此错误。 | 请确保错误消息中提到的资源存在,然后重试该作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
28 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] 。 |
由于 SQL Server 或存储相关问题,HMS 初始化可能会超时。 | 向 Azure HDInsight 团队提交支持请求。 |
29 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] 。 |
由于无法访问 keyvault 或密钥不可用,可能会出现此错误。 在某些情况下,此错误可能是群集节点上 Pod 标识基础结构初始化速度较慢造成的。 |
如果已启用 Log Analytics,请检查 secretprovider-validate job 日志以确定原因。在一段时间后重试作,如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
由于各种原因(例如映像拉取问题、控制器 Pod 未就绪或 MSI 出现问题),可能会出现此错误。 | 在一段时间后重试作,如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
由于各种原因(例如映像拉取问题、控制器 Pod 未就绪或 MSI 出现问题),可能会出现此错误。 | 在一段时间后重试作,如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
32 |
InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' 。 |
如果服务配置包含不允许的组件,则可能会出现此错误。 | 验证服务配置组件并重试。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
33 |
InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies 。 |
此错误可能是由于 HMS、SPARK、YARN 服务未启动而导致的,此错误可能与存储相关。 | 向 Azure HDInsight 团队提交支持请求。 |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
向 Azure HDInsight 团队提交支持请求。 | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
此错误可能是由于 HMS、SPARK、YARN 服务未启动而导致的,此错误可能与存储相关。 | 向 Azure HDInsight 团队提交支持请求。 |
36 |
InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] 。 |
在服务配置中传递不支持的文件时,可能会出现此错误。 | 验证服务配置组件并重试。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
身份验证参数无效 - 存储位置不可访问。 | 更正身份验证参数并重试。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持票证。 |
38 |
InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] 。 |
此错误可能会在安排 HMS Pod 后,Pod 标识资源在节点上初始化时间过长时出现。 | 如果问题仍然存在,请重试操作,然后向 Azure HDInsight 团队提交支持请求。 |
后续步骤
- 排查群集配置问题。