Erros de criação de cluster no Azure HDInsight no AKS
Importante
O Azure HDInsight no AKS foi desativado em 31 de janeiro de 2025. Saiba mais com este anúncio.
Você precisa migrar suas cargas de trabalho para Microsoft Fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.
Importante
Esta funcionalidade está atualmente em pré-visualização. Os Termos de Utilização Suplementares para Versões de Teste do Microsoft Azure incluem mais termos legais que se aplicam a funcionalidades do Azure que estão em versão beta, em pré-visualização ou ainda não disponibilizadas para o público em geral. Para obter informações sobre essa visualização específica, consulte Azure HDInsight no AKS informações de visualização. Para perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para mais atualizações na Comunidade do Azure HDInsight .
Este artigo descreve como solucionar problemas e resolver erros que podem ocorrer quando você cria o Azure HDInsight em clusters AKS.
Sr. Não | Mensagem de erro | Causa | Resolução |
---|---|---|---|
1 | ErroInternoDoServidor ErroIrreconhecível | Este erro pode indicar um modelo incorreto usado. Atualmente, os conectores de banco de dados são permitidos somente por meio do modelo ARM. Portanto, a validação da configuração não é possível no modelo. | |
2 | InvalidClusterSpec - FalhaNaDependênciaDoServiço - Configuração Inválida | Erro de memória máxima por nó. | Consulte as configurações máximas de memória tipos de valor de propriedade. |
3 | WaitingClusterResourcesReadyTimeOut - Serviço de metastore não está pronto | Este erro pode ser devido ao nome do contêiner pode conter apenas letras minúsculas, números e hífenes. O nome do contêiner deve começar com uma letra ou um número. | Cada hífen deve ser precedido e seguido por um caractere sem hífen. O nome também deve ter entre 3 e 63 caracteres. |
4 | Configuração de ClusterUpsertActivity - InvalidClusterSpec -Invalid | Erro: Propriedade de configuração inválida hive.metastore.uri: may not be null . |
Consulte a documentação do conector Hive. |
5 |
InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
Repita a operação ou abra um pedido de suporte para a equipa do Azure HDInsight. | |
6 |
InternalServerError - ObjectDisposedException ocorre no código RP. |
Repita a operação ou abra um pedido de suporte para a equipa do Azure HDInsight. | |
7 |
PreconditionFailed - Falha de operação devido a limites de cota na assinatura do usuário. |
Há validação de cota antes da criação do cluster. Mas quando vários clusters são criados sob a mesma assinatura ao mesmo tempo, é possível que o primeiro cluster ocupe a cota e o outro falhe devido à escassez de cotas. | Confirme se há quotas suficientes e tente criar novamente o cluster/pool de clusters. |
8 |
ReconcileApplicationSecurityGroupError - Erro interno do AKS |
Tente novamente a operação ou abra um tíquete de suporte para contactar a equipa da Azure HDInsight. | |
9 | ResourceGroupBeingDeleted |
Durante a criação ou atualização de recursos do HDI no AKS, o usuário também está excluindo alguns recursos em grupos de recursos relacionados. | Não exclua recursos em grupos de recursos relacionados ao HDI quando o HDI em recursos AKS estiver sendo criado ou atualizado. |
10 |
UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
Problema de AKS – pode ser devido ao alto tráfego em uma determinada região no momento da operação. | Repita a operação depois de algum tempo. Se possível, use outra região. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
O princípio de serviço 1-p não está integrado ao locatário. | Execute o comando para provisionar o princípio de serviço 1-p no novo locatário a ser integrado. |
12 | NotFound - ARM/AKS sdk error |
O usuário tenta atualizar o HDI no cluster AKS, mas o pool de agentes correspondente foi excluído. | O pool de agentes correspondente foi excluído. Não é recomendado operar o pool de agentes AKS diretamente. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
Falta de permissão para realizar a operação. | Verifique se o ID da aplicação principal de serviço mencionado na mensagem de erro lhe pertence. Se sim, conceda a permissão de acordo com a mensagem de erro. Se não, abra um pedido de suporte para a equipa do Azure HDInsight. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespace failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
O RP mudou para uma nova instância de função inesperadamente. | repita a operação ou abra um pedido de suporte para a equipa do Azure HDInsight. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
Uma operação de banco de dados falhou no lado do AKS durante a atualização do cluster. | Repita a operação depois de algum tempo. Se o problema persistir, abra um pedido de suporte para a equipa do Azure HDInsight. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
Este erro foi causado devido a vários problemas. | repita a operação ou abra um pedido de suporte para a equipa do Azure HDInsight. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
Este erro foi causado devido a vários problemas. | Tente novamente a operação depois de algum tempo. Se o problema persistir, abra um ticket de suporte para a equipa de suporte do Azure HDInsight. |
18 |
InternalServerError - Null reference exception occurs in RP code . |
Este erro é causado devido a vários problemas. | Tente novamente a operação ou abra um pedido de suporte para a equipa do Azure HDInsight. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
Este erro foi causado por vários problemas. | repita a operação ou abra um pedido de suporte para a equipa de suporte do Azure HDInsight. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
Este erro é causado por vários problemas. | repita a operação ou abra um ticket de suporte para a equipa do Azure HDInsight. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
Outra operação de pool de agentes (Scaling) está em andamento. Este erro foi causado devido à reinicialização do RP Service Fabric. | Aguarde até que a operação anterior termine antes de iniciar uma nova operação. Se o problema persistir após uma nova tentativa, abra um pedido de suporte para a equipa do Azure HDInsight. |
22 | ReconcileVMSSAgentPoolFailed |
Há validação de cota antes da criação do cluster. Mas quando vários clusters são criados sob a mesma assinatura ao mesmo tempo, é possível que o primeiro cluster ocupe a cota e os outros falhem devido à escassez de cotas. | Confirme se há cota suficiente e volte a tentar a criação de cluster ou pool de clusters. |
23 |
ReconcileVMSSAgentPoolFailed - Não é possível estabelecer conexão de saída de agentes |
AKS/VMSS problema secundário: a máquina virtual relatou uma falha. |
Tente novamente a operação depois de algum tempo. Se o problema persistir, abra um ticket de suporte à equipa do Azure HDInsight. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
Este erro causado devido a um problema transitório de conexão SQL. | Tente novamente a operação depois de algum tempo. Se o problema persistir, abra um pedido de suporte junto da equipa do Azure HDInsight. |
25 | NotLatestOperation - ARM/AKS SDK error |
A operação não pode prosseguir. Ou a operação foi antecipada por outra, ou as informações necessárias para a operação não puderam ser salvas (ou ainda não foram salvas). | Tente novamente a operação depois de algum tempo. Se o problema persistir, submeta um pedido de suporte junto à equipa do Azure HDInsight. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
Houve um problema com a operação de redução. | Abra um tíquete de suporte para a equipa do Azure HDInsight. |
27 | ResourceNotFound - ARM/AKS SDK error |
Este problema de erro ocorre quando um recurso necessário é removido/apagado pelo utilizador. | Certifique-se de que o recurso mencionado na mensagem de erro existe e, em seguida, tente novamente a operação. Se o problema persistir, abra um pedido de suporte para a equipa do Azure HDInsight. |
28 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
A inicialização do HMS pode expirar devido a problemas relacionados ao SQL Server ou ao armazenamento. | Abra um ticket de suporte para a equipa do Azure HDInsight. |
29 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
Este erro pode ocorrer devido a keyvault estar inacessível ou a chave secreta não estar disponível. Em alguns casos raros, esse erro pode ser devido à inicialização mais lenta da infra de identidade do pod nos nós do cluster. |
Se você tiver o Log Analytics habilitado, verifique os logs do secretprovider-validate job para identificar o motivo.repita a operação depois de algum tempo, se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
Este erro pode ocorrer devido a vários motivos, por exemplo, um problema de transferência de imagem, os pods do controlador não estarem prontos, ou um problema com a MSI. | repita a operação depois de algum tempo, se o problema persistir, abra um pedido de suporte para a equipa do Azure HDInsight. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
Este erro pode ocorrer devido a diversos motivos, como problema ao puxar a imagem, pods do controlador não prontos, ou um problema com MSI. | repita a operação depois de algum tempo, se o problema persistir, abra um pedido de suporte para a equipa do Azure HDInsight. |
32 |
InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
Este erro pode ocorrer se a configuração do serviço consistir em componentes que não são permitidos. | Valide os componentes de configuração de serviço e tente novamente. Se o problema persistir, abra um pedido de suporte para a equipa do Azure HDInsight. |
33 |
InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
Este erro pode ocorrer devido aos serviços HMS,SPARK,YARN não estarem ativos, este erro pode estar relacionado com o armazenamento. | Abra um ticket de suporte para a equipa do Azure HDInsight. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Abra um pedido de suporte para a equipa do Azure HDInsight. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
Este erro pode ocorrer devido aos serviços HMS,SPARK,YARN não estarem ativos, este erro pode estar relacionado com o armazenamento. | Abra um tíquete de suporte para a equipa do Azure HDInsight. |
36 |
InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
Este erro pode ocorrer quando arquivos não suportados são passados na configuração de serviços. | Valide os componentes de configuração de serviço e tente novamente. Se o problema persistir, abra um pedido de suporte para a equipa do Azure HDInsight. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
Parâmetros de autenticação inválidos – o local de armazenamento está inacessível. | Corrija os parâmetros de autenticação e tente novamente. Se o problema persistir, abra um pedido de suporte à equipa do Azure HDInsight. |
38 |
InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
Este erro pode ocorrer quando os recursos de identidade do pod demoram muito para iniciar no nó quando o pod HMS está agendado. | repita a operação, se o problema persistir, abra um ticket de suporte para a equipa do Azure HDInsight. |