Ligar e gerir bases de dados metastore do Hive no Microsoft Purview
Este artigo descreve como registar bases de dados metastore do Hive e como autenticar e interagir com bases de dados metastore do Hive no Microsoft Purview. Para obter mais informações sobre o Microsoft Purview, leia o artigo introdutório.
Recursos compatíveis
Extração de Metadados | Verificação Completa | Análise Incremental | Análise de Âmbito | Classificação | Rotulamento | Política de Acesso | Linhagem | Compartilhamento de Dados | Modo de exibição ao vivo |
---|---|---|---|---|---|---|---|---|---|
Sim | Sim | Não | Sim | Não | Não | Não | Sim* | Não | Não |
* Além da linhagem nos recursos na origem de dados, a linhagem também é suportada se o conjunto de dados for utilizado como origem/sink no pipeline do Data Factory ou do Synapse.
As versões do Hive suportadas são de 2.x a 3.x. As plataformas suportadas são Apache Hadoop, Cloudera e Hortonworks. Se quiser analisar o Azure Databricks, sugere-se que utilize o conector do Azure Databricks, que é mais compatível e compatível com o utilizador.
Ao analisar a origem do metastore do Hive, o Microsoft Purview suporta:
Extrair metadados técnicos, incluindo:
- Servidor
- Bancos de dados
- Tabelas, incluindo as colunas, chaves externas, restrições exclusivas e descrição do armazenamento
- Vistas, incluindo as colunas e a descrição do armazenamento
Obter linhagem estática nas relações de recursos entre tabelas e vistas.
Ao configurar a análise, pode optar por analisar uma base de dados metastore do Hive inteira ou definir o âmbito da análise para um subconjunto de esquemas que correspondem aos nomes ou padrões de nome especificados.
Limitações conhecidas
Quando o objeto é eliminado da origem de dados, atualmente a análise subsequente não remove automaticamente o recurso correspondente no Microsoft Purview.
Pré-requisitos
Tem de ter uma conta do Azure com uma subscrição ativa. Crie uma conta gratuitamente.
Tem de ter uma conta ativa do Microsoft Purview.
Precisa de permissões de Administrador de Origem de Dados e Leitor de Dados para registar uma origem e geri-la no portal de governação do Microsoft Purview. Para obter mais informações sobre permissões, consulte Controlo de acesso no Microsoft Purview.
Se a sua origem de dados não estiver acessível publicamente, configure o runtime de integração autoalojado mais recente.
-
Escolha o runtime de integração certo para o seu cenário:
-
Para utilizar um runtime de integração autoalojado:
- Siga o artigo para criar e configurar um runtime de integração autoalojado.
- Certifique-se de que o JDK 11 está instalado no computador onde o runtime de integração autoalojado está instalado. Reinicie o computador depois de instalar recentemente o JDK para que este entre em vigor.
- Certifique-se de que Pacote Redistribuível do Visual C++ (versão Visual Studio 2012 Update 4 ou mais recente) está instalado no computador onde o runtime de integração autoalojado está em execução. Se não tiver esta atualização instalada, transfira-a agora.
- Transfira o controlador JDBC da base de dados do Metastore do Hive no computador onde o runtime de integração autoalojado está em execução. Por exemplo, se a base de dados for mssql, transfira o controlador JDBC da Microsoft para SQL Server. Anote o caminho da pasta que irá utilizar para configurar a análise.
-
Para utilizar um runtime de integração autoalojado suportado pelo kubernetes:
- Siga o artigo para criar e configurar um runtime de integração suportado pelo kubernetes.
- Transfira o controlador JDBC da base de dados do Metastore do Hive no computador onde o runtime de integração autoalojado está em execução. Por exemplo, se a base de dados for mssql, transfira o controlador JDBC da Microsoft para SQL Server. Anote o caminho da pasta que irá utilizar para configurar a análise.
-
Para utilizar um runtime de integração autoalojado:
Observação
O controlador JDBC deve estar acessível através do runtime de integração autoalojado. Por predefinição, o runtime de integração autoalojado utiliza a conta de serviço local "NT SERVICE\DIAHostService". Certifique-se de que tem a permissão "Ler e executar" e "Listar conteúdo da pasta" para a pasta do controlador.
-
Escolha o runtime de integração certo para o seu cenário:
Registrar
Esta secção descreve como registar uma base de dados metastore do Hive no Microsoft Purview através do portal de governação do Microsoft Purview.
A única autenticação suportada para uma base de dados metastore do Hive é a Autenticação Básica.
Abra o portal de governação do Microsoft Purview ao:
- Navegue diretamente para https://web.purview.azure.com e selecione a sua conta do Microsoft Purview.
- Abrir o portal do Azure, procurar e selecionar a conta do Microsoft Purview. Selecionar o botão portal de governação do Microsoft Purview .
Selecione Mapa de Dados no painel esquerdo.
Selecione Registrar.
Em Registar origens, selecione Continuar o Metastore> do Hive.
No ecrã Registar origens (Metastore do Hive ), faça o seguinte:
Em Nome, introduza um nome que o Microsoft Purview irá listar como a origem de dados.
Para o URL do Cluster do Hive, introduza um valor que obtém do URL do Ambari. Por exemplo, introduza hive.azurehdinsight.net.
Para o URL do Servidor metastore do Hive, introduza um URL para o servidor. Por exemplo, introduza sqlserver://hive.database.windows.net.
Selecione uma coleção na lista.
Selecione Concluir.
Examinar
Dica
Para resolver problemas com a análise:
- Confirme que seguiu todos os pré-requisitos.
- Veja a nossa documentação de resolução de problemas de análise.
Utilize os seguintes passos para analisar as bases de dados metastore do Hive para identificar automaticamente os recursos. Para obter mais informações sobre a análise em geral, consulte Análises e ingestão no Microsoft Purview.
No Centro de Gestão, selecione runtimes de integração. Certifique-se de que está configurado um runtime de integração autoalojado. Se não estiver configurado, utilize os passos em pré-requisitos.
Aceda a Origens.
Selecione a base de dados do Metastore do Hive registada.
Selecione + Nova análise.
Forneça os seguintes detalhes:
Nome: introduza um nome para a análise.
Ligar através do runtime de integração: selecione o runtime de integração autoalojado configurado.
Credencial: selecione a credencial para ligar à sua origem de dados. Certifique-se de que:
- Selecione Autenticação Básica ao criar uma credencial.
- Indique o nome de utilizador do Metastore na caixa adequada.
- Armazene a palavra-passe do Metastore na chave secreta.
Para obter mais informações, veja Credenciais para autenticação de origem no Microsoft Purview.
Localização do Controlador JDBC do Metastore: especifique o caminho para a localização do controlador JDBC no computador onde o runtime de integração autoalojado está em execução. Por exemplo,
D:\Drivers\HiveMetastore
.- Para o runtime de integração autoalojado num computador local:
D:\Drivers\HiveMetastore
. É o caminho para a localização válida da pasta JAR. O valor tem de ser um caminho de ficheiro absoluto válido e não contém espaço. Certifique-se de que o controlador está acessível através do runtime de integração autoalojado;; saiba mais na secção de pré-requisitos. - Para o runtime de integração autoalojado suportado pelo Kubernetes:
./drivers/HiveMetastore
. É o caminho para a localização válida da pasta JAR. O valor tem de ser um caminho de ficheiro relativo válido. Veja a documentação para configurar uma análise com controladores externos para carregar controladores com antecedência.
- Para o runtime de integração autoalojado num computador local:
Classe de Controlador JDBC do Metastore: indique o nome da classe para o controlador de ligação. Por exemplo, introduza \com.microsoft.sqlserver.jdbc.SQLServerDriver.
URL JDBC do Metastore: forneça o valor do URL de ligação e defina a ligação ao URL do servidor da base de dados metastore. Por exemplo:
jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300
.Observação
Quando copiar o URL de hive-site.xml, remova
amp;
da cadeia ou a análise falhará.Transfira o certificado SSL para o computador de runtime de integração autoalojado e, em seguida, atualize o caminho para a localização do certificado SSL no seu computador no URL.
Quando introduzir caminhos de ficheiro locais na configuração da análise, altere o caráter separador do caminho do Windows de uma barra invertida (
\
) para uma barra (/
). Por exemplo, se colocar o certificado SSL no caminho de ficheiro local D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem, altere o valor doserverSslCert
parâmetro para D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.O valor do URL JDBC do Metastore terá o seguinte aspeto:
jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem
Nome da base de dados metastore: indique o nome da base de dados metastore do Hive.
Esquema: especifique uma lista de esquemas do Hive a importar. Por exemplo: schema1; schema2.
Todos os esquemas de utilizador são importados se essa lista estiver vazia. Todos os esquemas de sistema (por exemplo, SysAdmin) e objetos são ignorados por predefinição.
Os padrões de nome de esquema aceitáveis que utilizam a sintaxe da expressão SQL
LIKE
incluem o sinal de percentagem (%). Por exemplo,A%; %B; %C%; D
significa:- Começar com A ou
- Terminar com B ou
- Contenham C ou
- Igual a D
A utilização de
NOT
carateres especiais e não é aceitável.Memória máxima disponível: memória máxima (em gigabytes) disponível no computador do cliente para os processos de análise a utilizar. Este valor depende do tamanho da base de dados metastore do Hive a analisar.
Observação
Como regra de polegar, forneça 1 GB de memória para cada 1000 tabelas.
Selecione Continuar.
Em Acionador de análise, escolha se pretende configurar um agendamento ou executar a análise uma vez.
Reveja a análise e selecione Guardar e Executar.
Ver as suas análises e execuções de análise
Para ver as análises existentes:
- Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
- Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .
- Selecione a análise que tem os resultados que pretende ver. O painel mostra-lhe todas as execuções de análise anteriores, juntamente com as status e as métricas de cada execução de análise.
- Selecione o ID de execução para marcar os detalhes da execução da análise.
Gerir as suas análises
Para editar, cancelar ou eliminar uma análise:
Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.
Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .
Selecione a análise que pretende gerir. Você poderá:
- Edite a análise ao selecionar Editar análise.
- Cancele uma análise em curso ao selecionar Cancelar execução de análise.
- Elimine a análise ao selecionar Eliminar análise.
Observação
- Eliminar a análise não elimina os recursos de catálogo criados a partir de análises anteriores.
Linhagem
Depois de analisar a origem do Metastore do Hive, pode procurar no catálogo de dados ou no catálogo de dados de pesquisa para ver os detalhes do recurso.
Aceda ao separador ativo -> linhagem. Pode ver a relação de recursos quando aplicável. Veja a secção de capacidades suportadas nos cenários de linhagem do Metastore do Hive suportados. Para obter mais informações sobre a linhagem em geral, veja Guia do utilizador da linhagem e linhagem de dados.
Próximas etapas
Agora que registou a sua origem, utilize os seguintes guias para saber mais sobre o Microsoft Purview e os seus dados: