Erros de criação de cluster no Azure HDInsight no AKS
Nota
Vamos desativar o Azure HDInsight no AKS em 31 de janeiro de 2025. Antes de 31 de janeiro de 2025, você precisará migrar suas cargas de trabalho para o Microsoft Fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho. Os clusters restantes na sua subscrição serão interrompidos e removidos do anfitrião.
Apenas o apoio básico estará disponível até à data da reforma.
Importante
Esta funcionalidade está atualmente em pré-visualização. Os Termos de Utilização Suplementares para Pré-visualizações do Microsoft Azure incluem mais termos legais que se aplicam a funcionalidades do Azure que estão em versão beta, em pré-visualização ou ainda não disponibilizadas para disponibilidade geral. Para obter informações sobre essa visualização específica, consulte Informações de visualização do Azure HDInsight no AKS. Para perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para obter mais atualizações na Comunidade do Azure HDInsight.
Este artigo descreve como solucionar problemas e resolver erros que podem ocorrer quando você cria o Azure HDInsight em clusters AKS.
Sr. Não | Mensagem de erro | Causa | Resolução |
---|---|---|---|
1 | InternalServerError UnrecognizableError | Este erro pode indicar um modelo incorreto usado. Atualmente, os conectores de banco de dados são permitidos somente por meio do modelo ARM. Portanto, a validação da configuração não é possível no modelo. | |
2 | InvalidClusterSpec - ServiceDependencyFailure - Configuração inválida | Erro máximo de memória por nó. | Consulte os tipos de valor de propriedade maximum memory configurations. |
3 | WaitingClusterResourcesReadyTimeOut - Metastoreservice unready | Este erro pode ser devido ao nome do contêiner pode conter apenas letras minúsculas, números e hífenes. O nome do contêiner deve começar com uma letra ou um número. | Cada hífen deve ser precedido e seguido por um caractere sem hífen. O nome também deve ter entre 3 e 63 caracteres. |
4 | InvalidClusterSpec -Configuração inválida - ClusterUpsertActivity | Erro: Propriedade hive.metastore.uri: may not be null de configuração inválida . |
Consulte a documentação do conector do Hive. |
5 | InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
Repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. | |
6 | InternalServerError - ObjectDisposedException ocorre no código RP. |
Repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. | |
7 | PreconditionFailed - Falha de operação devido a limites de cota na assinatura do usuário. |
Há validação de cota antes da criação do cluster. Mas quando vários clusters são criados sob a mesma assinatura ao mesmo tempo, é possível que o primeiro cluster ocupe a cota e o outro falhe devido à escassez de cotas. | Confirme se há cota suficiente e tente criar novamente cluster/pool de clusters. |
8 | ReconcileApplicationSecurityGroupError - Erro interno do AKS |
Repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. | |
9 | ResourceGroupBeingDeleted |
Durante a criação ou atualização de recursos do HDI no AKS, o usuário também está excluindo alguns recursos em grupos de recursos relacionados. | Não exclua recursos em grupos de recursos relacionados ao HDI quando o HDI em recursos AKS estiver sendo criado ou atualizado. |
10 | UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
Problema de AKS – pode ser devido ao alto tráfego em uma determinada região no momento da operação. | Repita a operação após algum tempo. Se possível, use outra região. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
O princípio de serviço 1-p não está a bordo do inquilino. | Execute o comando para provisionar o princípio de serviço 1-p no novo locatário a ser integrado. |
12 | NotFound - ARM/AKS sdk error |
O usuário tenta atualizar o HDI no cluster AKS, mas o pool de agentes correspondente foi excluído. | O pool de agentes correspondente foi excluído. Não é recomendado operar o pool de agentes AKS diretamente. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
Falta de permissão para realizar a operação. | Verifique se o ID do aplicativo princípio de serviço mencionado na mensagem de erro pertence a você. Se sim, conceda a permissão de acordo com a mensagem de erro. Se não, abra um tíquete de suporte para a equipe do Azure HDInsight. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespace failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
O RP mudou para uma nova instância de função inesperadamente. | repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
Uma operação de banco de dados falhou no lado do AKS durante a atualização do cluster. | Repita a operação após algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
Este erro causado devido a vários problemas. | repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
Este erro causado devido a vários problemas. | Tente novamente a operação depois de algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
18 | InternalServerError - Null reference exception occurs in RP code . |
Este erro causado devido a vários problemas. | Repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
Este erro causado devido a vários problemas. | repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
Este erro causado devido a vários problemas. | repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
Outra operação de pool de agentes (Scaling) está em andamento. Este erro causado devido à reinicialização do RP Service Fabric. | Aguarde até que a operação anterior termine antes de iniciar uma nova operação. Se o problema persistir após uma nova tentativa, abra um tíquete de suporte para a equipe do Azure HDInsight. |
22 | ReconcileVMSSAgentPoolFailed |
Há validação de cota antes da criação do cluster. Mas quando vários clusters são criados sob a mesma assinatura ao mesmo tempo, é possível que o primeiro cluster ocupe a cota e os outros falhem devido à escassez de cotas. | Confirme se há cota suficiente e tente criar novamente cluster/pool de clusters. |
23 | ReconcileVMSSAgentPoolFailed - Não é possível estabelecer conexão de saída dos agentes |
AKS/VMSS problema lateral: a VM relatou uma falha. |
Tente novamente a operação depois de algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
Este erro causado devido a um problema transitório de conexão SQL. | Tente novamente a operação depois de algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
25 | NotLatestOperation - ARM/AKS SDK error |
A operação não pode prosseguir. Ou a operação foi antecipada por outra, ou as informações necessárias para a operação não puderam ser salvas (ou ainda não foram salvas). | Tente novamente a operação depois de algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
Houve um problema com a operação de redução. | Abra um tíquete de suporte para a equipe do Azure HDInsight. |
27 | ResourceNotFound - ARM/AKS SDK error |
Esse problema de erro ocorre quando um recurso necessário removido/excluído pelo usuário. | Certifique-se de que o recurso mencionado na mensagem de erro existe e, em seguida, tente novamente a operação. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
28 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
A inicialização do HMS pode atingir o tempo limite devido a problemas relacionados ao SQL Server ou ao armazenamento. | Abra um tíquete de suporte para a equipe do Azure HDInsight. |
29 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
Este erro pode ocorrer devido a keyvault estar inacessível ou a chave secreta não estar disponível. Em alguns casos raros, esse erro pode ser devido à inicialização mais lenta da infra de identidade do pod nos nós do cluster. |
Se você tiver o Log Analytics habilitado, verifique os logs de para identificar o motivo.repita a operação depois de algum tempo, se o problema persistir, abra um tíquete de suporte para a equipe do secretprovider-validate job Azure HDInsight. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
Este erro pode ocorrer devido a vários motivos, como problema de pull de imagem ou pods do controlador não prontos, ou um problema com MSI. | repita a operação depois de algum tempo, se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
Este erro pode ocorrer devido a vários motivos, como problema de pull de imagem ou pods do controlador não prontos, ou um problema com MSI. | repita a operação depois de algum tempo, se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
32 | InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
Este erro pode ocorrer se a configuração do serviço consistir em componentes que não são permitidos. | Valide os componentes de configuração de serviço e tente novamente. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
33 | InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
Este erro pode ocorrer devido aos serviços HMS,SPARK,YARN não estarem ativos, este erro pode estar relacionado com o armazenamento. | Abra um tíquete de suporte para a equipe do Azure HDInsight. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Abra um tíquete de suporte para a equipe do Azure HDInsight. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
Este erro pode ocorrer devido aos serviços HMS,SPARK,YARN não estarem ativos, este erro pode estar relacionado com o armazenamento. | Abra um tíquete de suporte para a equipe do Azure HDInsight. |
36 | InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
Este erro pode ocorrer quando arquivos não suportados são passados na configuração de serviços. | Valide os componentes de configuração de serviço e tente novamente. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
Parâmetros de autenticação inválidos – o local de armazenamento está inacessível. | Corrija os parâmetros de autenticação e tente novamente. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
38 | InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
Este erro pode ocorrer quando os recursos de identidade do pod demoram muito para iniciar no nó quando o pod HMS está agendado. | repita a operação, se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |