Como usar o metastore do Hive com o cluster Apache Spark™
Importante
O Azure HDInsight no AKS foi desativado em 31 de janeiro de 2025. Saiba mais com este anúncio.
Você precisa migrar suas cargas de trabalho para Microsoft Fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.
Importante
Esta funcionalidade está atualmente em pré-visualização. Os Termos de Utilização Suplementares para Pré-visualizações do Microsoft Azure incluem mais termos legais que se aplicam às funcionalidades do Azure que estão em versão beta, em pré-visualização ou ainda não disponibilizadas para disponibilização geral. Para obter informações sobre essa visualização específica, consulte Azure HDInsight no AKS informações de visualização. Para perguntas ou sugestões de funcionalidades, envie uma solicitação em AskHDInsight com os detalhes e siga-nos para mais atualizações na Comunidade do Azure HDInsight .
É essencial partilhar os dados e o metastore entre vários serviços. Um dos serviços de metadados mais utilizados no HIVE metastore. O HDInsight no AKS permite que os usuários se conectem a metastore externo. Esta etapa permite que os usuários do HDInsight se conectem perfeitamente a outros serviços no ecossistema.
O Azure HDInsight no AKS dá suporte a metastores personalizados, que são recomendados para clusters de produção. As principais etapas envolvidas são:
- Criar banco de dados SQL do Azure
- Criar um cofre de chaves para armazenar as credenciais
- Configure o Metastore enquanto cria um cluster HDInsight no AKS com o Apache Spark™
- Operar em Metastore Externo (Mostra bases de dados e faz uma seleção com limite de 1).
Enquanto você cria o cluster, o serviço HDInsight precisa se conectar ao metastore externo e verificar suas credenciais.
Criar banco de dados SQL do Azure
Crie ou tenha um Banco de Dados SQL do Azure existente antes de configurar um metastore personalizado do Hive para um cluster HDInsight.
Observação
Atualmente, oferecemos suporte apenas ao HIVE metastore no Banco de Dados SQL do Azure. Devido à limitação do Hive, o caractere "-" (hífen) no nome do banco de dados do metastore não é suportado.
Criar um cofre de chaves para armazenar as credenciais
Crie um Cofre de Chaves do Azure.
O objetivo do Cofre de Chaves é permitir que você armazene a senha de administrador do SQL Server definida durante a criação do banco de dados SQL. O HDInsight na plataforma AKS não lida diretamente com a credencial. Portanto, é necessário armazenar suas credenciais importantes no Cofre da Chave do Azure. Aprenda as etapas para criar Azure Key Vault.
Após a criação do Azure Key Vault, atribua as seguintes funções:
Objeto Funções Comentários Identidade gerenciada atribuída pelo usuário (o mesmo UAMI usado pelo cluster HDInsight) Usuário do Key Vault Secrets Saiba como atribuir uma função ao UAMI Usuário(que cria segredo no Cofre da Chave do Azure) Administrador do Cofre de Chaves Saiba como Atribuir função ao usuário. Observação
Sem essa função, o usuário não pode criar um segredo.
-
Esta etapa permite que você mantenha sua senha de administrador do SQL Server em segredo no Cofre de Chaves do Azure. Adicione sua senha (mesma senha fornecida no banco de dados SQL para administrador) no campo "Valor" enquanto adiciona um segredo.
Observação
Certifique-se de anotar o nome secreto, pois você precisará dele durante a criação do cluster.
Configurar o Metastore enquanto cria um cluster HDInsight Spark
Navegue até HDInsight no pool de clusters AKS para criar clusters.
Ative o interruptor para adicionar o metastore externo do Hive e preencha os seguintes detalhes.
O restante dos detalhes deve ser preenchido de acordo com as regras de criação de cluster para cluster Apache Spark no HDInsight no AKS.
Clique em Rever e Criar.
Observação
- O ciclo de vida do metastore não está vinculado a um ciclo de vida de clusters, portanto, você pode criar e excluir clusters sem perder metadados. Os metadados, como os esquemas do Hive, persistem mesmo depois de excluir e recriar o cluster HDInsight.
- Um metastore personalizado permite anexar vários clusters e tipos de cluster a esse metastore.
Operar num Metastore Externo
Criar uma tabela
>> spark.sql("CREATE TABLE sampleTable (number Int, word String)")
Adicionar dados na tabela
>> spark.sql("INSERT INTO sampleTable VALUES (123, \"HDIonAKS\")");\
Leia a tabela
>> spark.sql("select * from sampleTable").show()
Referência
- Apache, Apache Spark, Spark e nomes de projetos de código aberto associados são marcas comerciais da Apache Software Foundation (ASF).