Azure HDInsight 在 AKS 上的叢集建立錯誤
重要
AKS 上的 Azure HDInsight 於 2025 年 1 月 31 日淘汰。 透過此公告 深入瞭解。
您必須將工作負載移轉至 Microsoft Fabric 或對等 Azure 產品,以避免突然終止工作負載。
重要
這項功能目前為預覽狀態。 Microsoft Azure 預覽版的補充使用規定 包含適用於 Beta 版、預覽版或尚未正式發行之 Azure 功能的更合法條款。 如需此特定預覽的相關信息,請參閱 AKS 預覽資訊上的 Azure HDInsight。 如有問題或功能建議,請提交需求 AskHDInsight。此外,請關注我們以獲得 Azure HDInsight 社群更多更新。
本文說明如何在 AKS 叢集上建立 Azure HDInsight 時,針對可能發生的錯誤進行疑難解答和解決。
Sr. No. | 錯誤資訊 | 原因 | 解析度 |
---|---|---|---|
1 | 內部伺服器錯誤 無法識別的錯誤 | 此錯誤可能表示所使用的範本不正確。 目前,資料庫連接器只能透過ARM範本來允許。 因此,範本上無法驗證組態。 | |
2 | InvalidClusterSpec - ServiceDependencyFailure - 設定無效 | 每個節點的記憶體上限錯誤。 | 請參閱 屬性值類型的最大記憶體組態。 |
3 | 集群資源等待準備超時 - Metastore服務未就緒 | 此錯誤可能是因為容器名稱只能包含小寫字母、數位和連字元。 容器名稱的開頭必須是字母或數位。 | 每個連字元前面和後面都必須加上一個非連字元的字符。 名稱長度必須介於 3 到 63 個字元之間。 |
4 | InvalidClusterSpec -Invalid 組態 - ClusterUpsertActivity | 錯誤:hive.metastore.uri: may not be null 無效的組態屬性。 |
請參閱 Hive 連接器檔案。 |
5 |
InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call 。 |
請重試該作業,或向 Azure HDInsight 團隊開啟支援票證。 | |
6 |
InternalServerError - ObjectDisposedException 發生在 RP 程式代碼中。 |
請重試作業,或開啟支援要求給 Azure HDInsight 團隊。 | |
7 |
PreconditionFailed - 由於使用者訂用帳戶的配額限制,作業失敗。 |
叢集建立之前會有配額驗證。 但是,當在同一個訂用帳戶下建立數個叢集時,第一個叢集可能會佔用配額,而另一個叢集可能會因為配額短缺而失敗。 | 確認有足夠的配額,並重試叢集/叢集集區建立。 |
8 |
ReconcileApplicationSecurityGroupError - 內部 AKS 錯誤 |
請重試作業,或向 Azure HDInsight 團隊開啟支援票證。 | |
9 | ResourceGroupBeingDeleted |
在 AKS 資源建立或更新的 HDI 期間,使用者也會刪除相關資源群組中的某些資源。 | 建立或更新 AKS 資源上的 HDI 時,請勿刪除 HDI 相關資源群組中的資源。 |
10 |
UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out 。 |
AKS 問題 – 可能是作業時特定區域中的高流量所致。 | 在一段時間後重試作業。 可能的話,請使用另一個區域。 |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
1-p 服務原則未啟用於租戶。 | 執行命令,為要上線的新租戶佈建 1-p 服務原則。 |
12 | NotFound - ARM/AKS sdk error |
用戶嘗試更新 AKS 叢集上的 HDI,但已刪除對應的代理程式集區。 | 對應的代理程式集區已刪除。 不建議直接操作 AKS 代理程序集區。 |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
缺少執行作業的許可權。 | 檢查錯誤訊息中提及的服務主體應用程式識別碼是否為您所擁有。 如果是,請根據錯誤訊息授與許可權。 如果沒有,請向 Azure HDInsight 小組提出支援請求。 |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespace failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP 意外地切換到新的角色實例。 | 請重試作業,或開啟 Azure HDInsight 小組的支援票證。 |
15 | EntityStoreOperationError - ARM/AKS sdk error |
在叢集更新期間,AKS 端的資料庫作業失敗。 | 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 團隊提交支援請求單。 |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
此錯誤是因為各種問題所造成。 | 請重試操作,或開啟 Azure HDInsight 團隊的支援票證。 |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
此錯誤是因為各種問題所造成。 | 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 團隊開啟技術支援請求。 |
18 |
InternalServerError - Null reference exception occurs in RP code 。 |
此錯誤是因為各種問題所造成。 | 請重試此操作,或者聯絡 Azure HDInsight 團隊以開啟支援票證。 |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
此錯誤是因為各種問題所造成。 | 請重試作業,或開啟 Azure HDInsight 小組的支援票證。 |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
此錯誤是因為各種問題所造成。 | 請重試操作,或開立支援請求給 Azure HDInsight 團隊。 |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
另一個代理程式集區操作(調整大小)正在進行中。 此錯誤是因為 RP Service Fabric 重新啟動所造成。 | 等候先前的作業完成,再開始新的作業。 如果問題在重試後持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
22 | ReconcileVMSSAgentPoolFailed |
叢集建立之前會有配額驗證。 但是,在同一個訂用帳戶下建立數個叢集時,第一個叢集可能會佔用配額,而其他叢集可能會因為配額短缺而失敗。 | 確認有足夠的配額,並重試叢集/叢集集區建立。 |
23 |
ReconcileVMSSAgentPoolFailed - 無法從代理程式建立輸出連線 |
AKS/VMSS 次要問題:VM 已回報失敗。 |
在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 團隊開啟支援票證。 |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
此錯誤是因為暫時性 SQL 連線問題所造成。 | 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 團隊開啟服務請求。 |
25 | NotLatestOperation - ARM/AKS SDK error |
作業無法繼續。 作業已被另一個作業先佔,或作業所需的信息無法儲存(或尚未儲存)。 | 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 團隊提交支援票證。 |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
縮減操作發生問題。 | 向 Azure HDInsight 團隊開啟支援票證。 |
27 | ResourceNotFound - ARM/AKS SDK error |
當使用者移除/刪除所需的資源時,就會發生此錯誤問題。 | 請確定錯誤訊息中提及的資源存在,然後重試作業。 如果問題持續發生,請向 Azure HDInsight 團隊開啟支持工單。 |
28 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] 。 |
HMS 初始化可能會因為 SQL Server 或記憶體相關問題而逾時。 | 向 Azure HDInsight 小組開啟支援票證。 |
29 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] 。 |
此錯誤可能會因為無法存取 keyvault 或無法使用秘密金鑰而發生。 在某些罕見的情況下,這個錯誤可能是由於叢集節點上的 Pod 身分識別基礎設施初始化較慢所致。 |
如果您已啟用 Log Analytics,請檢查 secretprovider-validate job 的記錄,以找出原因。過一段時間後,重新嘗試操作。如果問題持續發生,請開啟 Azure HDInsight 小組的支援票證。 |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
此錯誤可能會因為映像提取問題、控制器 Pod 未就緒或 MSI 問題等各種原因而發生。 | 在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
此錯誤可能會因為映像提取問題、控制器 Pod 未就緒或 MSI 問題等各種原因而發生。 | 在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
32 |
InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' 。 |
如果服務組態是由不允許的元件所組成,就可能發生此錯誤。 | 驗證服務設定元件,然後重試。 如果問題持續發生,請向 Azure HDInsight 團隊開啟支援票證。 |
33 |
InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies 。 |
此錯誤可能會因為 HMS、SPARK、YARN 服務未啟動而發生,此錯誤可能與記憶體相關。 | 向 Azure HDInsight 支援小組開啟支援請求。 |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
向 Azure HDInsight 小組開啟支援請求單。 | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
此錯誤可能會因為 HMS、SPARK、YARN 服務未啟動而發生,此錯誤可能與記憶體相關。 | 向 Azure HDInsight 團隊建立支援票證。 |
36 |
InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] 。 |
在服務組態中傳遞不支援的檔案時,可能會發生此錯誤。 | 驗證服務設定元件,然後重試。 如果問題持續發生,請向 Azure HDInsight 團隊開啟支援票證。 |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
無效的驗證參數 – 無法存取儲存位置。 | 更正驗證參數並重試。 如果問題持續發生,請向 Azure HDInsight 小組提交支援請求。 |
38 |
InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] 。 |
當在排程 HMS Pod 時,Pod 身分識別資源在節點上啟動花費太長的時間,就會發生此錯誤。 | 如果問題持續發生,請重試作業,向 Azure HDInsight 小組開啟支援票證。 |