Compartilhar via


Como usar o "metastore do Hive" com o cluster do Apache Spark™

Importante

O Azure HDInsight no AKS se aposentou em 31 de janeiro de 2025. Saiba mais com este comunicado.

Você precisa migrar suas cargas de trabalho para microsoft fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.

Importante

Esse recurso está atualmente em versão prévia. Os termos de uso complementares para o Microsoft Azure Previews incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, consulte Azure HDInsight em informações de visualização do AKS. Para perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para mais atualizações na Comunidade do Azure HDInsight .

É essencial compartilhar os dados e o metastore entre vários serviços. Um dos metadados frequentemente usados no HIVE metastore. O HDInsight no AKS permite que os usuários se conectem ao metastore externo. Essa etapa permite que os usuários do HDInsight se conectem perfeitamente a outros serviços no ecossistema.

O Azure HDInsight em AKS oferece suporte a metastores personalizados, que são recomendados para clusters de produção. As principais etapas envolvidas são

  1. Criar banco de dados SQL do Azure
  2. Criar um cofre de chaves para armazenar as credenciais
  3. Configurar o Metastore enquanto você cria um HDInsight no cluster do AKS com Apache Spark™
  4. Operar no Metastore Externo (Mostrar bancos de dados e realizar uma seleção com limite de 1).

Enquanto você cria o cluster, o serviço HDInsight precisa se conectar ao metastore externo e verificar suas credenciais.

Criar banco de dados SQL do Azure

  1. Crie ou tenha um Banco de Dados SQL do Azure existente antes de configurar um metastore de Hive personalizado para um cluster HDInsight.

    Nota

    Atualmente, oferecemos suporte apenas ao Banco de Dados SQL do Azure para o metastore do HIVE. Devido à limitação do Hive, não há suporte para o caractere "-" (hífen) no nome do banco de dados metastore.

Criar um cofre de chaves para armazenar as credenciais

  1. Crie um Azure Key Vault.

    A finalidade do Key Vault é permitir que você armazene o conjunto de senhas de administrador do SQL Server durante a criação do banco de dados SQL. O HDInsight na plataforma AKS não lida diretamente com a credencial. Portanto, é necessário armazenar suas credenciais importantes no Azure Key Vault. Conheça as etapas para criar um Azure Key Vault .

  2. Após a criação do Azure Key Vault, atribua as seguintes funções

    Objeto Papel Observações
    Identidade Gerenciada Atribuída pelo Usuário (a mesma Identidade Gerenciada Atribuída pelo Usuário usada pelo cluster HDInsight) Usuário de segredos do Key Vault Saiba como atribuir uma função a UAMI
    Usuário (que cria segredo no Azure Key Vault) Administrador do Key Vault Saiba como Atribuir função ao usuário.

    Nota

    Sem essa função, o usuário não pode criar um segredo.

  3. Criar um segredo

    Esta etapa permite que você mantenha sua senha de administrador do SQL Server como um segredo no Azure Key Vault. Adicione sua senha(mesma senha fornecida no BD SQL para administrador) no campo "Valor" ao adicionar um segredo.

    Captura de tela mostrando como criar um cofre de chaves.

    Captura de tela mostrando como criar um segredo.

    Nota

    Anote o nome do segredo, pois você precisará dele durante a criação do cluster.

Configurar o Metastore enquanto você cria um cluster HDInsight Spark

  1. Navegue até o HDInsight no pool de clusters do AKS para criar clusters.

    Captura de tela mostrando como criar um novo cluster.

  2. Habilite o botão de alternância para adicionar o metastore externo do Hive e preencha os detalhes a seguir.

    Captura de tela mostrando a guia básica.

  3. O restante dos detalhes devem ser preenchidos de acordo com as regras de criação do cluster para o cluster Apache Spark no HDInsight no AKS.

  4. Clique em Revisar e Criar.

    Captura de tela mostrando a guia revisar e criar.

    Nota

    • O ciclo de vida do metastore não está vinculado a um ciclo de vida de clusters, portanto, você pode criar e excluir clusters sem perder metadados. Metadados como os esquemas do Hive persistem mesmo após você excluir e recriar o cluster HDInsight.
    • Um metastore personalizado permite anexar vários clusters e tipos de cluster a esse metastore.

Operar no Metastore Externo

  1. Criar uma tabela

    >> spark.sql("CREATE TABLE sampleTable (number Int, word String)")

    Captura de tela mostrando como criar tabela.

  2. Adicionar dados na tabela

    >> spark.sql("INSERT INTO sampleTable VALUES (123, \"HDIonAKS\")");\

    Captura de tela mostrando a instrução insert.

  3. Ler a tabela

    >> spark.sql("select * from sampleTable").show()

    Captura de tela mostrando como ler a tabela.

Referência

  • Apache, Apache Spark, Spark e nomes de projeto de software livre associados são marcas registradas da Apache Software Foundation (ASF).