Erros de criação de cluster no Azure HDInsight no AKS
Importante
O Azure HDInsight no AKS se aposentou em 31 de janeiro de 2025. Saiba mais com este comunicado.
Você precisa migrar suas cargas de trabalho para microsoft fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.
Importante
Esse recurso está atualmente em versão prévia. Os termos de uso complementares para o Microsoft Azure Previews incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, consulte Azure HDInsight em informações de visualização do AKS. Para perguntas ou sugestões de funcionalidades, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para mais atualizações na Comunidade do Azure HDInsight.
Este artigo descreve como solucionar problemas e resolver erros que podem ocorrer quando você cria o Azure HDInsight em clusters do AKS.
Sr. Não | Mensagem de erro | Causa | Resolução |
---|---|---|---|
1 | ErroInternoDoServidor ErroImpossívelDeReconhecer | Esse erro pode indicar um modelo incorreto usado. Atualmente, os conectores de banco de dados são permitidos somente por meio do modelo do ARM. Portanto, a validação da configuração não é possível no modelo. | |
2 | InvalidClusterSpec – ServiceDependencyFailure – Configuração inválida | Erro de memória máxima por nó. | Consulte as configurações máximas de memória tipos de valor de propriedade. |
3 | TempoDeEsperaDeRecursosDoClusterProntoExpirou - ServiçoDeMetadadosNãoPronto | Esse erro pode ser devido ao nome do contêiner conter apenas letras minúsculas, números e hifens. O nome do contêiner deve começar com uma letra ou um número. | Cada hífen deve ser precedido e seguido por um caractere não hifen. O nome também deve ter entre 3 e 63 caracteres. |
4 | Configuração InvalidClusterSpec -Invalid – ClusterUpsertActivity | Erro: propriedade de configuração inválida hive.metastore.uri: may not be null . |
Consulte a documentação do conector Hive. |
5 |
InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
Repita a operação ou abra um ticket de suporte para a equipe do Azure HDInsight. | |
6 |
InternalServerError - ObjectDisposedException ocorre no código RP. |
Repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. | |
7 |
PreconditionFailed – Falha na operação devido aos limites de cota na assinatura do usuário. |
Há validação de cota antes da criação do cluster. Mas quando vários clusters são criados sob a mesma assinatura ao mesmo tempo, é possível que o primeiro cluster ocupe a cota e o outro falhe devido à escassez de cotas. | Confirme se há cota suficiente e tente criar novamente o cluster ou grupo de clusters. |
8 |
ReconcileApplicationSecurityGroupError - Erro interno do AKS |
Repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. | |
9 | ResourceGroupBeingDeleted |
Durante a criação ou atualização de recursos do HDI no AKS, o usuário também está excluindo alguns recursos em grupos de recursos relacionados. | Não exclua recursos em grupos de recursos relacionados ao HDI quando o HDI nos recursos do AKS estiver sendo criado ou atualizado. |
10 |
UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
Problema do AKS – pode ser devido ao alto tráfego em uma determinada região no momento da operação. | Tente novamente a operação após algum tempo. Se possível, use outra região. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
O princípio do serviço 1-p não foi incorporado ao inquilino. | Execute o comando para provisionar o princípio do serviço 1-p no novo locatário a ser integrado. |
12 | NotFound - ARM/AKS sdk error |
O usuário tenta atualizar o HDI no cluster do AKS, mas o pool de agentes correspondente foi excluído. | O pool de agentes correspondente foi excluído. Não é recomendável operar diretamente o pool de agentes do AKS. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
Falta de permissão para executar a operação. | Verifique se o ID do aplicativo de serviço mencionado na mensagem de erro é de sua propriedade. Se sim, conceda a permissão de acordo com a mensagem de erro. Se não, abra um tíquete de suporte para a equipe do Azure HDInsight. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespace failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP mudou para uma nova instância de função inesperadamente. | repita a operação ou abra um ticket de suporte para a equipe de suporte do Azure HDInsight. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
Uma operação de banco de dados falhou no lado do AKS durante a atualização do cluster. | Tente novamente a operação após algum tempo. Se o problema persistir, abra um ticket de suporte para a equipe do Azure HDInsight. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
Este erro foi causado por diversos problemas. | tente novamente a operação ou abra um tíquete de suporte com a equipe do Azure HDInsight. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
Este erro foi causado por vários problemas. | tente novamente a operação após algum tempo. Se o problema persistir, abra um chamado de suporte para a equipe de suporte do Azure HDInsight. |
18 |
InternalServerError - Null reference exception occurs in RP code . |
Este erro foi causado por diversos problemas. | Repita a operação ou abra uma solicitação de suporte para a equipe do Azure HDInsight. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
Esse erro foi causado por vários problemas. | repita a operação ou abra um tíquete de suporte para a equipe do Azure HDInsight. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
Esse erro foi causado por vários problemas. | tente novamente a operação ou abra um tíquete de suporte com a equipe do Azure HDInsight. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
Outra operação no pool de agentes (redimensionamento) está em andamento. Esse erro foi causado devido à reinicialização do RP Service Fabric. | Aguarde até que a operação anterior seja concluída antes de iniciar uma nova operação. Se o problema persistir após tentar novamente, abra um tíquete de suporte com a equipe do Azure HDInsight. |
22 | ReconcileVMSSAgentPoolFailed |
Há validação de cota antes da criação do cluster. Mas quando vários clusters são criados sob a mesma assinatura ao mesmo tempo, é possível que o primeiro cluster ocupe a cota e os outros falhem devido à escassez de cotas. | Confirme se há cota suficiente e tente novamente a criação do cluster/pool de clusters. |
23 |
ReconcileVMSSAgentPoolFailed – Não é possível estabelecer a conexão de saída dos agentes |
AKS/VMSS problema lateral: a VM relatou uma falha. |
tente novamente a operação após algum tempo. Se o problema persistir, abra um tíquete de suporte com a equipe do Azure HDInsight. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
Este erro foi causado por um problema temporário na conexão com SQL. | tente novamente a operação após algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
25 | NotLatestOperation - ARM/AKS SDK error |
A operação não pode continuar. A operação foi preempida por outra ou as informações necessárias para a operação não foram salvas (ou ainda não foram salvas). | tente novamente a operação após algum tempo. Se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
Houve um problema com a operação de redução de escala. | Abra um tíquete de suporte para a equipe do Azure HDInsight. |
27 | ResourceNotFound - ARM/AKS SDK error |
Esse problema de erro ocorre quando um recurso necessário é removido/excluído pelo usuário. | Verifique se o recurso mencionado na mensagem de erro existe e tente novamente a operação. Se o problema persistir, abra um tíquete de suporte para a equipe da Azure HDInsight. |
28 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
A inicialização do HMS pode acabar devido a problemas relacionados ao SQL Server ou ao armazenamento. | Abra um ticket de suporte para a equipe do Azure HDInsight. |
29 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
Esse erro pode ocorrer devido a keyvault estar inacessível ou a chave secreta não estar disponível. Em alguns casos raros, esse erro pode ocorrer devido à inicialização mais lenta da infraestrutura de identidade do pod nos nós do cluster. |
Se você tiver o Log Analytics habilitado, verifique os logs de secretprovider-validate job para identificar o motivo. Repita a operação após algum tempo; se o problema persistir, abra um chamado de suporte para a equipe do Azure HDInsight. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
Esse erro pode ocorrer devido a vários motivos, como problema ao buscar imagem, pods do controlador não prontos, ou um problema com o MSI. | Tente novamente a operação após algum tempo, se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
Esse erro pode ocorrer devido a vários motivos, como problemas ao puxar a imagem, pods de controlador que não estão prontos, ou problemas com o MSI. | Tente novamente a operação após algum tempo, se o problema persistir, abra um tíquete de suporte para a equipe do Azure HDInsight. |
32 |
InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
Esse erro poderá ocorrer se a configuração do serviço consistir em componentes que não são permitidos. | Valide os componentes de configuração de serviço e tente novamente. Se o problema persistir, abra um tíquete de suporte com a equipe do Azure HDInsight. |
33 |
InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
Esse erro pode ocorrer devido à não ativação dos serviços HMS, SPARK, YARN, esse erro pode estar relacionado ao armazenamento. | Abra um tíquete de suporte para a equipe do Azure HDInsight. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Abra um tíquete de suporte para a equipe do HDInsight no Azure. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
Esse erro pode ocorrer devido à não ativação dos serviços HMS, SPARK, YARN, esse erro pode estar relacionado ao armazenamento. | Abra um chamado de suporte com a equipe do Azure HDInsight. |
36 |
InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
Esse erro pode ocorrer quando arquivos sem suporte são passados na configuração de serviços. | Valide os componentes de configuração de serviço e tente novamente. Se o problema persistir, abra um chamado de suporte para a equipe do Azure HDInsight. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
Parâmetros de autenticação inválidos – o local de armazenamento está inacessível. | Corrigir parâmetros de autenticação e tentar novamente. Se o problema persistir, abra um tíquete de suporte para a equipe de suporte do Azure HDInsight. |
38 |
InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
Esse erro pode ocorrer quando os recursos de identidade do pod demoram muito para iniciar no nó quando o pod HMS está agendado. | Tente novamente a operação e, se o problema persistir, abra um chamado para a equipe do Azure HDInsight. |