Azure HDInsight on AKS에서 클러스터 만들기 오류
참고 항목
2025년 1월 31일에 Azure HDInsight on AKS가 사용 중지됩니다. 2025년 1월 31일 이전에 워크로드가 갑자기 종료되지 않도록 워크로드를 Microsoft Fabric 또는 동등한 Azure 제품으로 마이그레이션해야 합니다. 구독의 나머지 클러스터는 호스트에서 중지되고 제거됩니다.
사용 중지 날짜까지 기본 지원만 사용할 수 있습니다.
Important
이 기능은 현지 미리 보기로 제공됩니다. Microsoft Azure 미리 보기에 대한 보충 사용 약관에는 베타 또는 미리 보기로 제공되거나 아직 일반 공급으로 릴리스되지 않은 Azure 기능에 적용되는 더 많은 약관이 포함되어 있습니다. 이 특정 미리 보기에 대한 자세한 내용은 Azure HDInsight on AKS 미리 보기 정보를 참조하세요. 질문이나 기능 제안이 있는 경우 AskHDInsight에서 세부 정보와 함께 요청을 제출하고 Azure HDInsight 커뮤니티에서 더 많은 업데이트를 확인하세요.
이 문서에서는 Azure HDInsight on AKS 클러스터를 만들 때 발생할 수 있는 오류를 해결하는 방법을 설명합니다.
일련 아니요 | 오류 메시지 | 원인 | 해결 방법 |
---|---|---|---|
1 | InternalServerError UnrecognizableError | 이 오류는 잘못된 템플릿이 사용되었음을 나타낼 수 있습니다. 현재 데이터베이스 커넥터는 ARM 템플릿을 통해서만 허용됩니다. 따라서 템플릿에서는 구성의 유효성을 검사할 수 없습니다. | |
2 | InvalidClusterSpec - ServiceDependencyFailure - 잘못된 구성 | 노드당 최대 메모리 오류입니다. | 최대 메모리 구성 속성 값 형식을 참조하세요. |
3 | WaitingClusterResourcesReadyTimeOut - Metastoreservice unready | 컨테이너 이름에는 소문자, 숫자 및 하이픈만 사용할 수 있기 때문에 이 오류가 발생했을 수 있습니다. 컨테이너 이름은 문자 또는 숫자로 시작해야 합니다. | 각 하이픈의 앞과 뒤에는 하이픈이 아닌 문자가 와야 합니다. 이름의 길이는 3~63자 사이여야 합니다. |
4 | InvalidClusterSpec -잘못된 구성 - ClusterUpsertActivity | 오류: 잘못된 구성 속성 hive.metastore.uri: may not be null |
Hive 커넥터 설명서를 참조하세요. |
5 | InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. | |
6 | InternalServerError - ObjectDisposedException 이 RP 코드에서 발생합니다. |
작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. | |
7 | PreconditionFailed - 사용자 구독에 대한 할당량 한도로 인한 작업 실패 |
클러스터를 만들기 전에 할당량 유효성 검사가 있습니다. 그러나 여러 클러스터가 동일한 구독에서 동시에 생성되면 첫 번째 클러스터가 할당량을 먼저 사용하므로 다른 클러스터는 할당량 부족으로 인해 실패할 수 있습니다. | 충분한 할당량이 있는지 확인하고 클러스터/클러스터 풀 만들기를 다시 시도하십시오. |
8 | ReconcileApplicationSecurityGroupError - 내부 AKS 오류 |
작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. | |
9 | ResourceGroupBeingDeleted |
HDI on AKS 리소스를 만들거나 업데이트할 때 사용자는 관련 리소스 그룹의 일부 리소스도 삭제합니다. | HDI on AKS 리소스를 만들거나 업데이트할 때 HDI 관련 리소스 그룹의 리소스를 삭제하지 마세요. |
10 | UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
AKS 이슈 – 작업 시 특정 지역의 트래픽이 높기 때문일 수 있습니다. | 잠시 후 작업을 다시 시도하세요. 가능하면 다른 지역을 사용하세요. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
1-p 서비스 원칙이 테넌트에 등록되지 않았습니다. | 온보딩할 새 테넌트에 1-p 서비스 원칙을 프로비전하는 명령을 실행하십시오. |
12 | NotFound - ARM/AKS sdk error |
사용자가 HDI on AKS 클러스터에서 HDI를 업데이트하려고 하지만 해당 에이전트 풀이 삭제되었습니다. | 해당 에이전트 풀이 삭제되었습니다. AKS 에이전트 풀을 직접 운영하는 것은 바람직하지 않습니다. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
작업을 수행할 수 있는 권한이 없습니다. | 서비스 원칙 앱 ID가 사용자가 소유한 오류 메시지에 나와 있는지 확인합니다. 있다면 오류 메시지에 따라 사용 권한을 부여합니다. 없다면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespace failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP가 예기치 않게 새 역할 인스턴스로 전환되었습니다. | 작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
클러스터 업데이트 중에 AKS 측에서 데이터베이스 작업에 실패했습니다. | 잠시 후 작업을 다시 시도하세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
이 오류는 다양한 문제로 인해 발생했습니다. | 작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
이 오류는 다양한 문제로 인해 발생했습니다. | 잠시 후 작업을 다시 시도하세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
18 | InternalServerError - Null reference exception occurs in RP code . |
이 오류는 다양한 문제로 인해 발생했습니다. | 작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
이 오류는 다양한 문제로 인해 발생했습니다. | 작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
이 오류는 다양한 문제로 인해 발생했습니다. | 작업을 다시 시도하거나 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
다른 에이전트 풀 작업(크기 조정)이 진행 중입니다. 이 오류는 RP Service Fabric 재부팅이 원인입니다. | 이전 작업이 완료될 때까지 기다린 후 새 작업을 시작합니다. 다시 시도한 후에도 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
22 | ReconcileVMSSAgentPoolFailed |
클러스터를 만들기 전에 할당량 유효성 검사가 있습니다. 그러나 여러 클러스터가 동일한 구독에서 동시에 생성되면 첫 번째 클러스터가 할당량을 먼저 사용하므로 다른 클러스터는 할당량 부족으로 인해 실패할 수 있습니다. | 충분한 할당량이 있는지 확인하고 클러스터/클러스터 풀 만들기를 다시 시도하십시오. |
23 | ReconcileVMSSAgentPoolFailed - 에이전트에서 아웃바운드 연결을 설정할 수 없음 |
AKS/VMSS 측 이슈: VM에서 실패를 보고했습니다. |
잠시 후 작업을 다시 시도하세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
이 오류는 일시적인 SQL 연결 이슈로 인해 발생했습니다. | 잠시 후 작업을 다시 시도하세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
25 | NotLatestOperation - ARM/AKS SDK error |
작업을 계속 진행할 수 없습니다. 다른 작업이 이 작업보다 선점했거나 작업에 필요한 정보를 저장하지 못했거나 아직 저장하지 않았습니다. | 잠시 후 작업을 다시 시도하세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
축소 작업 관련 이슈가 있었습니다. | Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
27 | ResourceNotFound - ARM/AKS SDK error |
이 오류 이슈는 사용자가 필요한 리소스를 제거/삭제했을 때 발생합니다. | 오류 메시지에 언급된 리소스가 있는지 확인한 다음 작업을 다시 시도하십시오. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
28 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
SQL Server 또는 스토리지 관련 이슈로 인해 HMS 초기화 시간이 초과될 수 있습니다. | Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
29 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
이 오류는 keyvault 에 액세스할 수 없거나 비밀 키를 사용할 수 없기 때문에 발생할 수 있습니다. 드문 경우지만 클러스터 노드에서 Pod ID 인프라의 초기화 속도가 느려지기 때문에 이 오류가 발생했을 수 있습니다. |
Log Analytics를 사용하도록 설정한 경우 secretprovider-validate job 의 로그를 확인하여 이유를 확인합니다. 잠시 후 작업을 다시 시도해 보세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
이 오류는 이미지 끌어오기 이슈, 컨트롤러 Pod가 준비되지 않음 또는 MSI 관련 이슈 등의 다양한 이유로 인해 발생할 수 있습니다. | 잠시 후 작업을 다시 시도해 보세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
이 오류는 이미지 끌어오기 이슈, 컨트롤러 Pod가 준비되지 않음 또는 MSI 관련 이슈 등의 다양한 이유로 인해 발생할 수 있습니다. | 잠시 후 작업을 다시 시도해 보세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
32 | InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
서비스 구성이 허용되지 않는 구성 요소로 구성된 경우 이 오류가 발생할 수 있습니다. | 서비스 구성 요소의 유효성을 검사하고 다시 시도하세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
33 | InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
이 오류는 HMS, SPARK, YARN 서비스가 실행되지 않아 발생할 수 있으며 스토리지와 관련이 있을 수 있습니다. | Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Azure HDInsight 팀에 대한 지원 티켓을 엽니다. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
이 오류는 HMS, SPARK, YARN 서비스가 실행되지 않아 발생할 수 있으며 스토리지와 관련이 있을 수 있습니다. | Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
36 | InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
이 오류는 서비스 구성에서 지원되지 않는 파일이 전달될 때 발생할 수 있습니다. | 서비스 구성 요소의 유효성을 검사하고 다시 시도하세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
잘못된 인증 매개 변수 - 스토리지 위치에 액세스할 수 없습니다. | 인증 매개 변수를 수정하고 다시 시도하세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |
38 | InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
이 오류는 HMS Pod가 예약될 때 노드에서 Pod ID 리소스가 시작하는 데 너무 오래 걸리는 경우 발생할 수 있습니다. | 작업을 다시 시도하세요. 이슈가 지속되면 Azure HDInsight 팀에 대한 지원 티켓을 엽니다. |