Partilhar via


Ligar e gerir bases de dados metastore do Hive no Microsoft Purview

Este artigo descreve como registar bases de dados metastore do Hive e como autenticar e interagir com bases de dados metastore do Hive no Microsoft Purview. Para obter mais informações sobre o Microsoft Purview, leia o artigo introdutório.

Recursos compatíveis

Extração de Metadados Verificação Completa Análise Incremental Análise de Âmbito Classificação Rotulamento Política de Acesso Linhagem Compartilhamento de Dados Modo de exibição ao vivo
Sim Sim Não Sim Não Não Não Sim* Não Não

* Além da linhagem nos recursos na origem de dados, a linhagem também é suportada se o conjunto de dados for utilizado como origem/sink no pipeline do Data Factory ou do Synapse.

As versões do Hive suportadas são de 2.x a 3.x. As plataformas suportadas são Apache Hadoop, Cloudera e Hortonworks. Se quiser analisar o Azure Databricks, sugere-se que utilize o conector do Azure Databricks, que é mais compatível e compatível com o utilizador.

Ao analisar a origem do metastore do Hive, o Microsoft Purview suporta:

  • Extrair metadados técnicos, incluindo:

    • Servidor
    • Bancos de dados
    • Tabelas, incluindo as colunas, chaves externas, restrições exclusivas e descrição do armazenamento
    • Vistas, incluindo as colunas e a descrição do armazenamento
  • Obter linhagem estática nas relações de recursos entre tabelas e vistas.

Ao configurar a análise, pode optar por analisar uma base de dados metastore do Hive inteira ou definir o âmbito da análise para um subconjunto de esquemas que correspondem aos nomes ou padrões de nome especificados.

Limitações conhecidas

Quando o objeto é eliminado da origem de dados, atualmente a análise subsequente não remove automaticamente o recurso correspondente no Microsoft Purview.

Pré-requisitos

Registrar

Esta secção descreve como registar uma base de dados metastore do Hive no Microsoft Purview através do portal de governação do Microsoft Purview.

A única autenticação suportada para uma base de dados metastore do Hive é a Autenticação Básica.

  1. Abra o portal de governação do Microsoft Purview ao:

  2. Selecione Mapa de Dados no painel esquerdo.

  3. Selecione Registrar.

  4. Em Registar origens, selecione Continuar o Metastore> do Hive.

  5. No ecrã Registar origens (Metastore do Hive ), faça o seguinte:

    1. Em Nome, introduza um nome que o Microsoft Purview irá listar como a origem de dados.

    2. Para o URL do Cluster do Hive, introduza um valor que obtém do URL do Ambari. Por exemplo, introduza hive.azurehdinsight.net.

    3. Para o URL do Servidor metastore do Hive, introduza um URL para o servidor. Por exemplo, introduza sqlserver://hive.database.windows.net.

    4. Selecione uma coleção na lista.

    Captura de ecrã a mostrar caixas para registar origens do Hive.

  6. Selecione Concluir.

Examinar

Dica

Para resolver problemas com a análise:

  1. Confirme que seguiu todos os pré-requisitos.
  2. Veja a nossa documentação de resolução de problemas de análise.

Utilize os seguintes passos para analisar as bases de dados metastore do Hive para identificar automaticamente os recursos. Para obter mais informações sobre a análise em geral, consulte Análises e ingestão no Microsoft Purview.

  1. No Centro de Gestão, selecione runtimes de integração. Certifique-se de que está configurado um runtime de integração autoalojado. Se não estiver configurado, utilize os passos em pré-requisitos.

  2. Aceda a Origens.

  3. Selecione a base de dados do Metastore do Hive registada.

  4. Selecione + Nova análise.

  5. Forneça os seguintes detalhes:

    1. Nome: introduza um nome para a análise.

    2. Ligar através do runtime de integração: selecione o runtime de integração autoalojado configurado.

    3. Credencial: selecione a credencial para ligar à sua origem de dados. Certifique-se de que:

      • Selecione Autenticação Básica ao criar uma credencial.
      • Indique o nome de utilizador do Metastore na caixa adequada.
      • Armazene a palavra-passe do Metastore na chave secreta.

      Para obter mais informações, veja Credenciais para autenticação de origem no Microsoft Purview.

    4. Localização do Controlador JDBC do Metastore: especifique o caminho para a localização do controlador JDBC no computador onde o runtime de integração autoalojado está em execução. Por exemplo, D:\Drivers\HiveMetastore.

      1. Para o runtime de integração autoalojado num computador local: D:\Drivers\HiveMetastore. É o caminho para a localização válida da pasta JAR. O valor tem de ser um caminho de ficheiro absoluto válido e não contém espaço. Certifique-se de que o controlador está acessível através do runtime de integração autoalojado;; saiba mais na secção de pré-requisitos.
      2. Para o runtime de integração autoalojado suportado pelo Kubernetes: ./drivers/HiveMetastore. É o caminho para a localização válida da pasta JAR. O valor tem de ser um caminho de ficheiro relativo válido. Veja a documentação para configurar uma análise com controladores externos para carregar controladores com antecedência.
    5. Classe de Controlador JDBC do Metastore: indique o nome da classe para o controlador de ligação. Por exemplo, introduza \com.microsoft.sqlserver.jdbc.SQLServerDriver.

    6. URL JDBC do Metastore: forneça o valor do URL de ligação e defina a ligação ao URL do servidor da base de dados metastore. Por exemplo: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Observação

      Quando copiar o URL de hive-site.xml, remova amp; da cadeia ou a análise falhará.

      Transfira o certificado SSL para o computador de runtime de integração autoalojado e, em seguida, atualize o caminho para a localização do certificado SSL no seu computador no URL.

      Quando introduzir caminhos de ficheiro locais na configuração da análise, altere o caráter separador do caminho do Windows de uma barra invertida (\) para uma barra (/). Por exemplo, se colocar o certificado SSL no caminho de ficheiro local D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem, altere o valor do serverSslCert parâmetro para D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.

      O valor do URL JDBC do Metastore terá o seguinte aspeto:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Nome da base de dados metastore: indique o nome da base de dados metastore do Hive.

    8. Esquema: especifique uma lista de esquemas do Hive a importar. Por exemplo: schema1; schema2.

      Todos os esquemas de utilizador são importados se essa lista estiver vazia. Todos os esquemas de sistema (por exemplo, SysAdmin) e objetos são ignorados por predefinição.

      Os padrões de nome de esquema aceitáveis que utilizam a sintaxe da expressão SQL LIKE incluem o sinal de percentagem (%). Por exemplo, A%; %B; %C%; D significa:

      • Começar com A ou
      • Terminar com B ou
      • Contenham C ou
      • Igual a D

      A utilização de NOT carateres especiais e não é aceitável.

    9. Memória máxima disponível: memória máxima (em gigabytes) disponível no computador do cliente para os processos de análise a utilizar. Este valor depende do tamanho da base de dados metastore do Hive a analisar.

      Observação

      Como regra de polegar, forneça 1 GB de memória para cada 1000 tabelas.

    Captura de ecrã a mostrar caixas para obter detalhes de análise.

  6. Selecione Continuar.

  7. Em Acionador de análise, escolha se pretende configurar um agendamento ou executar a análise uma vez.

  8. Reveja a análise e selecione Guardar e Executar.

Ver as suas análises e execuções de análise

Para ver as análises existentes:

  1. Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
  2. Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .
  3. Selecione a análise que tem os resultados que pretende ver. O painel mostra-lhe todas as execuções de análise anteriores, juntamente com as status e as métricas de cada execução de análise.
  4. Selecione o ID de execução para marcar os detalhes da execução da análise.

Gerir as suas análises

Para editar, cancelar ou eliminar uma análise:

  1. Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.

  2. Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .

  3. Selecione a análise que pretende gerir. Você poderá:

    • Edite a análise ao selecionar Editar análise.
    • Cancele uma análise em curso ao selecionar Cancelar execução de análise.
    • Elimine a análise ao selecionar Eliminar análise.

Observação

  • Eliminar a análise não elimina os recursos de catálogo criados a partir de análises anteriores.

Linhagem

Depois de analisar a origem do Metastore do Hive, pode procurar no catálogo de dados ou no catálogo de dados de pesquisa para ver os detalhes do recurso.

Aceda ao separador ativo -> linhagem. Pode ver a relação de recursos quando aplicável. Veja a secção de capacidades suportadas nos cenários de linhagem do Metastore do Hive suportados. Para obter mais informações sobre a linhagem em geral, veja Guia do utilizador da linhagem e linhagem de dados.

Próximas etapas

Agora que registou a sua origem, utilize os seguintes guias para saber mais sobre o Microsoft Purview e os seus dados: