Partilhar via


Como usar o metastore do Hive com o cluster Apache Spark™

Importante

O Azure HDInsight no AKS foi desativado em 31 de janeiro de 2025. Saiba mais com este anúncio.

Você precisa migrar suas cargas de trabalho para Microsoft Fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.

Importante

Esta funcionalidade está atualmente em pré-visualização. Os Termos de Utilização Suplementares para Pré-visualizações do Microsoft Azure incluem mais termos legais que se aplicam às funcionalidades do Azure que estão em versão beta, em pré-visualização ou ainda não disponibilizadas para disponibilização geral. Para obter informações sobre essa visualização específica, consulte Azure HDInsight no AKS informações de visualização. Para perguntas ou sugestões de funcionalidades, envie uma solicitação em AskHDInsight com os detalhes e siga-nos para mais atualizações na Comunidade do Azure HDInsight .

É essencial partilhar os dados e o metastore entre vários serviços. Um dos serviços de metadados mais utilizados no HIVE metastore. O HDInsight no AKS permite que os usuários se conectem a metastore externo. Esta etapa permite que os usuários do HDInsight se conectem perfeitamente a outros serviços no ecossistema.

O Azure HDInsight no AKS dá suporte a metastores personalizados, que são recomendados para clusters de produção. As principais etapas envolvidas são:

  1. Criar banco de dados SQL do Azure
  2. Criar um cofre de chaves para armazenar as credenciais
  3. Configure o Metastore enquanto cria um cluster HDInsight no AKS com o Apache Spark™
  4. Operar em Metastore Externo (Mostra bases de dados e faz uma seleção com limite de 1).

Enquanto você cria o cluster, o serviço HDInsight precisa se conectar ao metastore externo e verificar suas credenciais.

Criar banco de dados SQL do Azure

  1. Crie ou tenha um Banco de Dados SQL do Azure existente antes de configurar um metastore personalizado do Hive para um cluster HDInsight.

    Observação

    Atualmente, oferecemos suporte apenas ao HIVE metastore no Banco de Dados SQL do Azure. Devido à limitação do Hive, o caractere "-" (hífen) no nome do banco de dados do metastore não é suportado.

Criar um cofre de chaves para armazenar as credenciais

  1. Crie um Cofre de Chaves do Azure.

    O objetivo do Cofre de Chaves é permitir que você armazene a senha de administrador do SQL Server definida durante a criação do banco de dados SQL. O HDInsight na plataforma AKS não lida diretamente com a credencial. Portanto, é necessário armazenar suas credenciais importantes no Cofre da Chave do Azure. Aprenda as etapas para criar Azure Key Vault.

  2. Após a criação do Azure Key Vault, atribua as seguintes funções:

    Objeto Funções Comentários
    Identidade gerenciada atribuída pelo usuário (o mesmo UAMI usado pelo cluster HDInsight) Usuário do Key Vault Secrets Saiba como atribuir uma função ao UAMI
    Usuário(que cria segredo no Cofre da Chave do Azure) Administrador do Cofre de Chaves Saiba como Atribuir função ao usuário.

    Observação

    Sem essa função, o usuário não pode criar um segredo.

  3. Crie um segredo

    Esta etapa permite que você mantenha sua senha de administrador do SQL Server em segredo no Cofre de Chaves do Azure. Adicione sua senha (mesma senha fornecida no banco de dados SQL para administrador) no campo "Valor" enquanto adiciona um segredo.

    Captura de ecrã a mostrar como criar um cofre de chaves.

    Captura de tela mostrando como criar um segredo.

    Observação

    Certifique-se de anotar o nome secreto, pois você precisará dele durante a criação do cluster.

Configurar o Metastore enquanto cria um cluster HDInsight Spark

  1. Navegue até HDInsight no pool de clusters AKS para criar clusters.

    Captura de tela mostrando como criar um novo cluster.

  2. Ative o interruptor para adicionar o metastore externo do Hive e preencha os seguintes detalhes.

    Captura de ecrã que mostra o separador básico.

  3. O restante dos detalhes deve ser preenchido de acordo com as regras de criação de cluster para cluster Apache Spark no HDInsight no AKS.

  4. Clique em Rever e Criar.

    Captura de ecrã a mostrar o separador de revisão e criação.

    Observação

    • O ciclo de vida do metastore não está vinculado a um ciclo de vida de clusters, portanto, você pode criar e excluir clusters sem perder metadados. Os metadados, como os esquemas do Hive, persistem mesmo depois de excluir e recriar o cluster HDInsight.
    • Um metastore personalizado permite anexar vários clusters e tipos de cluster a esse metastore.

Operar num Metastore Externo

  1. Criar uma tabela

    >> spark.sql("CREATE TABLE sampleTable (number Int, word String)")

    Captura de tela mostrando como criar tabela.

  2. Adicionar dados na tabela

    >> spark.sql("INSERT INTO sampleTable VALUES (123, \"HDIonAKS\")");\

    Captura de tela mostrando a instrução insert.

  3. Leia a tabela

    >> spark.sql("select * from sampleTable").show()

    Captura de tela mostrando como ler a tabela.

Referência

  • Apache, Apache Spark, Spark e nomes de projetos de código aberto associados são marcas comerciais da Apache Software Foundation (ASF).