AKS의 Azure HDInsight에서 클러스터 만들기 오류
중요하다
AKS의 Azure HDInsight는 2025년 1월 31일에 사용 중지되었습니다. 이 공지 에 대해 자세히 알아보세요.
워크로드가 갑자기 종료되는 것을 방지하기 위해 워크로드를 Microsoft Fabric 또는 동등한 Azure 제품으로 워크로드를 마이그레이션해야 합니다.
중요하다
이 기능은 현재 미리 보기로 제공됩니다. Microsoft Azure Preview에 대한 추가 사용 약관에는 베타나 미리 보기 또는 아직 일반 공급으로 릴리스되지 않은 Azure 기능에 적용되는 더 많은 법적 조건이 포함되어 있습니다. 이 특정 미리 보기에 대한 정보는 Azure HDInsight on AKS 미리 보기 정보을 참조하세요. 질문 또는 기능 제안에 대한 자세한 내용은 AskHDInsight 대한 요청을 제출하고 Azure HDInsight Community 대한 자세한 업데이트를.
이 문서에서는 AKS 클러스터에서 Azure HDInsight를 만들 때 발생할 수 있는 오류를 해결하고 해결하는 방법을 설명합니다.
일세 번호 | 오류 메시지 | 원인 | 해상도 |
---|---|---|---|
1 | 내부 서버 오류 인식 불가능 오류 | 이 오류는 잘못된 템플릿이 사용되었음을 나타낼 수 있습니다. 현재 데이터베이스 커넥터는 ARM 템플릿을 통해서만 허용됩니다. 따라서 템플릿에서는 구성의 유효성을 검사할 수 없습니다. | |
2 | InvalidClusterSpec - ServiceDependencyFailure - 잘못된 구성 오류 (유효하지 않은 클러스터 사양 - 서비스 종속성 실패) | 노드당 최대 메모리 오류입니다. | 속성 값 유형의최대 메모리 구성을 참조하세요. |
3 | 클러스터 리소스 준비 시간 초과 - 메타스토어 서비스 준비되지 않음 | 이 오류는 컨테이너 이름에 소문자, 숫자 및 하이픈만 포함될 수 있으므로 발생할 수 있습니다. 컨테이너 이름은 문자 또는 숫자로 시작해야 합니다. | 각 하이픈 앞뒤에는 하이픈이 아닌 문자가 있어야 합니다. 이름은 3자에서 63자 사이여야 합니다. |
4 | InvalidClusterSpec -Invalid 구성 - ClusterUpsertActivity | 오류: 잘못된 구성 속성 hive.metastore.uri: may not be null . |
Hive 커넥터 설명서참조하세요. |
5 |
InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. | |
6 |
InternalServerError - ObjectDisposedException RP 코드에서 발생합니다. |
작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. | |
7 |
PreconditionFailed - 사용자 구독에 대한 할당량 제한으로 인한 작업 실패입니다. |
클러스터를 만들기 전에 할당량 유효성 검사가 있습니다. 그러나 여러 클러스터가 동일한 구독에서 동시에 만들어지면 첫 번째 클러스터가 할당량을 차지하고 다른 클러스터는 할당량 부족으로 인해 실패할 수 있습니다. | 충분한 할당량이 있는지 확인하고 클러스터/클러스터 풀 만들기를 다시 시도합니다. |
8 |
ReconcileApplicationSecurityGroupError - 내부 AKS 오류 |
작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. | |
9 | ResourceGroupBeingDeleted |
AKS 리소스를 만들거나 업데이트할 때 HDI를 사용하는 동안 사용자는 관련 리소스 그룹의 일부 리소스도 삭제합니다. | AKS 리소스의 HDI를 만들거나 업데이트할 때 HDI 관련 리소스 그룹의 리소스를 삭제하지 마세요. |
10 |
UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
AKS 문제 – 작업 시 특정 지역의 트래픽이 높기 때문일 수 있습니다. | 잠시 후 작업을 다시 시도합니다. 가능하면 다른 지역을 사용합니다. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
1-p 서비스 원칙이 테넌트에 통합되지 않았습니다. | 명령을 실행하여 온보딩할 새 테넌트에 1-p 서비스 원칙을 프로비전합니다. |
12 | NotFound - ARM/AKS sdk error |
사용자가 AKS 클러스터에서 HDI를 업데이트하려고 하지만 해당 에이전트 풀이 삭제되었습니다. | 해당 에이전트 풀이 삭제되었습니다. AKS 에이전트 풀을 직접 운영하는 것은 권장되지 않습니다. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
작업을 수행할 수 있는 권한이 없습니다. | 오류 메시지에 언급된 서비스 프린시펄 앱 ID가 당신 소유인지 확인하십시오. 그렇다면 오류 메시지에 따라 사용 권한을 부여합니다. 그렇지 않은 경우 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespace failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP가 예기치 않게 새 역할 인스턴스로 전환되었습니다. | 작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
클러스터 업데이트 중에 AKS 쪽에서 데이터베이스 작업이 실패했습니다. | 잠시 후 작업을 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
이 오류는 다양한 문제로 인해 발생했습니다. | 작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
이 오류는 다양한 문제로 인해 발생했습니다. | 잠시 후 작업을 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
18 |
InternalServerError - Null reference exception occurs in RP code . |
이 오류는 다양한 문제로 인해 발생했습니다. | 작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
이 오류는 다양한 문제로 인해 발생했습니다. | 작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
이 오류는 다양한 문제로 인해 발생했습니다. | 작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
다른 에이전트 풀 작업(크기 조정)이 진행 중입니다. 이 오류는 RP Service Fabric 재부팅으로 인해 발생합니다. | 새 작업을 시작하기 전에 이전 작업이 완료되기를 기다립니다. 다시 시도 후 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
22 | ReconcileVMSSAgentPoolFailed |
클러스터를 만들기 전에 할당량 유효성 검사가 있습니다. 그러나 여러 클러스터가 동일한 구독에서 동시에 만들어지면 첫 번째 클러스터가 할당량을 차지하고 다른 클러스터는 할당량 부족으로 인해 실패할 수 있습니다. | 충분한 할당량이 있는지 확인하고 클러스터/클러스터 풀 만들기를 다시 시도합니다. |
23 |
ReconcileVMSSAgentPoolFailed - 에이전트에서 아웃바운드 연결을 설정할 수 없음 |
AKS/VMSS 쪽 문제: VM에서 오류를 보고했습니다. |
잠시 후 작업을 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
이 오류는 일시적인 SQL 연결 문제로 인해 발생했습니다. | 잠시 후 작업을 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
이십오 (25) | NotLatestOperation - ARM/AKS SDK error |
작업을 계속할 수 없습니다. 작업이 다른 작업에 의해 선점되었거나 작업에 필요한 정보를 저장하지 못했거나 아직 저장되지 않았습니다. | 잠시 후 작업을 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
축소 작업에 문제가 있었습니다. | Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
27 | ResourceNotFound - ARM/AKS SDK error |
이 오류 문제는 사용자가 필요한 리소스를 제거/삭제할 때 발생합니다. | 오류 메시지에 언급된 리소스가 있는지 확인한 다음 작업을 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
28 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
SQL Server 또는 스토리지 관련 문제로 인해 HMS 초기화 시간이 초과될 수 있습니다. | Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
29 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
이 오류는 keyvault 액세스할 수 없거나 비밀 키를 사용할 수 없기 때문에 발생할 수 있습니다. 드문 경우에 이 오류는 클러스터 노드에서 Pod ID 인프라의 초기화 속도가 느려지기 때문일 수 있습니다. |
Log Analytics를 사용하도록 설정한 경우 secretprovider-validate job 로그를 확인하여 이유를 식별하십시오. 시간이 지난 후에 작업을 다시 시도하십시오. 문제가 지속되면, Azure HDInsight 팀에 지원 티켓을 여십시오. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
이 오류는 이미지 끌어오기 문제, 컨트롤러 Pod가 준비되지 않은 등의 다양한 이유 또는 MSI 관련 문제로 인해 발생할 수 있습니다. | 잠시 후 작업을 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
이 오류는 이미지 끌어오기 문제, 컨트롤러 Pod가 준비되지 않은 등의 다양한 이유 또는 MSI 관련 문제로 인해 발생할 수 있습니다. | 잠시 후 작업을 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
32 |
InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
서비스 구성이 허용되지 않는 구성 요소로 구성된 경우 이 오류가 발생할 수 있습니다. | 서비스 구성 요소의 유효성을 검사하고 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
33 |
InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
이 오류는 HMS, SPARK, YARN 서비스가 가동되지 않아 발생할 수 있으며 이 오류는 스토리지와 관련될 수 있습니다. | Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Azure HDInsight 팀에 대한 지원 티켓을 엽니다. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
이 오류는 HMS, SPARK, YARN 서비스가 가동되지 않아 발생할 수 있으며 이 오류는 스토리지와 관련될 수 있습니다. | Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
36 |
InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
이 오류는 지원되지 않는 파일이 서비스 구성에 전달될 때 발생할 수 있습니다. | 서비스 구성 요소의 유효성을 검사하고 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
잘못된 인증 매개 변수 - 스토리지 위치에 액세스할 수 없습니다. | 인증 매개 변수를 수정하고 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
38 |
InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
이 오류는 HMS 파드가 스케줄될 때 파드 정체성 리소스가 노드에서 시작하는 데 너무 오래 걸릴 경우 발생할 수 있습니다. | 작업을 다시 시도합니다. 문제가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
다음 단계
- 클러스터 구성문제를 진단합니다.