Ligar e gerir o Catálogo do Unity do Azure Databricks no Microsoft Purview
Este artigo descreve como registar o Azure Databricks e como autenticar e interagir com o Catálogo unity do Azure Databricks no Microsoft Purview. Para obter mais informações sobre o Microsoft Purview, leia o artigo introdutório.
Recursos compatíveis
Extração de Metadados | Verificação Completa | Análise Incremental | Análise de Âmbito | Classificação | Rotulamento | Política de Acesso | Linhagem | Compartilhamento de Dados | Modo de exibição ao vivo |
---|---|---|---|---|---|---|---|---|---|
Sim | Sim | Sim | Sim | Sim | Não | Não | Sim | Não | Não |
Ao analisar o Catálogo do Unity do Azure Databricks, o Microsoft Purview suporta:
- Extrair metadados técnicos, incluindo:
- Metastore
- Catálogos
- Esquemas
- Tabelas, incluindo as colunas
- Vistas, incluindo as colunas
- Obter linhagem nas relações de recursos entre tabelas, vistas e colunas durante as execuções do bloco de notas.
Ao configurar a análise, pode optar por analisar todo o Catálogo do Unity ou definir o âmbito da análise para um subconjunto de catálogos.
Observação
Este conector traz metadados do Catálogo do Unity do Azure Databricks. Para analisar metadados no âmbito da área de trabalho do Azure Databricks, veja Conector metastore do Hive do Azure Databricks.
Limitações conhecidas
- Quando o objeto é eliminado da origem de dados, atualmente a análise subsequente não remove automaticamente o recurso correspondente no Microsoft Purview.
- Para obter mais detalhes sobre outras limitações relacionadas com a linhagem nativa do Azure Databricks, veja a documentação do Azure Databricks.
Pré-requisitos
Tem de ter uma conta do Azure com uma subscrição ativa. Crie uma conta gratuitamente.
Tem de ter uma conta ativa do Microsoft Purview.
Precisa de uma Key Vault do Azure e de conceder permissões ao Microsoft Purview para aceder a segredos.
Precisa de permissões de Administrador de Origem de Dados e Leitor de Dados para registar uma origem e geri-la no portal de governação do Microsoft Purview. Para obter mais informações sobre permissões, consulte Controlo de acesso no Microsoft Purview.
Para analisar o Catálogo do Unity do Azure Databricks, o Microsoft Purview liga-se a um SQL Warehouse na sua área de trabalho e utiliza o Token de Acesso Pessoal para autenticação. Tem de ter uma área de trabalho do Azure Databricks ativada e anexada ao metastore que pretende analisar. Na sua área de trabalho do Azure Databricks:
Crie um SQL Warehouse. Também pode utilizar o armazém Starter criado automaticamente, se aplicável.
Anote o caminho HTTP. Pode encontrá-lo na área de trabalho do Azure Databricks -> SQL Warehouses -> o seu armazém -> Detalhes da ligação -> caminho HTTP.
Certifique-se de que o utilizador tem a permissão Pode Utilizar para se ligar ao Azure Databricks SQL Warehouse. Saiba mais no controlo de acesso do SQL Warehouse.
Para obter a linhagem do Azure Databricks com o Microsoft Purview, os seguintes pré-requisitos têm de estar implementados:
Ativar o esquema do sistema: o system schema system.access tem de estar ativado no catálogo do Unity. Isto é necessário porque as informações de linhagem são armazenadas em tabelas do sistema e a ativação deste esquema permite o acesso a essas tabelas. Saiba mais sobre a monitorização da utilização com tabelas do sistema.
Privilégios de utilizador: a conta de utilizador utilizada para a análise tem de ter privilégios SELECT nas seguintes tabelas do sistema:
system.access.table_lineage
system.access.column_lineage
Estas permissões são necessárias porque os dados de linhagem são lidos diretamente a partir das tabelas do sistema e, sem o acesso necessário, o Microsoft Purview não consegue obter as informações de linhagem.
Se a área de trabalho do Azure Databricks não permitir o acesso a partir da rede pública ou se a sua conta do Microsoft Purview não ativar o acesso a partir de todas as redes, pode utilizar o Managed Rede Virtual Integration Runtime ou um runtime de integração autoalojado suportado pelo Kubernetes para analisar. Pode configurar um ponto final privado gerido para o Azure Databricks, conforme necessário, para estabelecer conectividade privada.
Autenticação para uma análise
Pode utilizar tokens de acesso pessoal, identidades geridas ou métodos de autenticação do principal de serviço para analisar o Catálogo do Unity do Azure Databricks.
- Identidade gerida atribuída pelo sistema ou pelo utilizador
- Token de Acesso Pessoal
- Principal de Serviço
Se estiver a utilizar um sistema ou uma identidade gerida atribuída pelo utilizador
- Selecione a identidade gerida atribuída pelo sistema ou atribuída pelo utilizador em Credencial.
Para utilizar uma identidade gerida atribuída pelo utilizador, tem de configurar a autenticação de identidades geridas do Azure para o Azure Databricks.
Para todos os objetos que pretende trazer para o Microsoft Purview, o principal de utilizador ou serviço tem de ter, pelo menos, privilégio SELECT em tabelas/vistas, UTILIZAR CATÁLOGO no catálogo do objeto e UTILIZAR ESQUEMA no esquema do objeto.
Para analisar todos os objetos num metastore do Catálogo do Unity, utilize um principal de utilizador ou serviço com a função de administrador do metastore. Saiba mais em Gerir privilégios no Catálogo do Unity e privilégios do Catálogo unity e objetos com capacidade de segurança.
Para a classificação, o utilizador também precisa de ter privilégios SELECT nas tabelas/vistas para obter dados de exemplo.
Registrar
Esta secção descreve como registar uma área de trabalho do Azure Databricks no Microsoft Purview com o portal de governação do Microsoft Purview.
Aceda à sua conta do Microsoft Purview.
Selecione Mapa de Dados no painel esquerdo.
Selecione Registrar.
Em Registar origens, selecioneContinuar Catálogo do Unity > do Azure Databricks.
No ecrã Registar origens (Catálogo do Unity do Azure Databricks ), faça o seguinte:
Em Nome, introduza um nome que o Microsoft Purview irá listar como a origem de dados.
Para o ID do Metastore, forneça o ID do metastore para o metastore do Catálogo unity do Azure Databricks que pretende analisar.
Selecione uma coleção na lista.
- Selecione Concluir.
Examinar
Dica
Para resolver problemas com a análise:
- Confirme que seguiu todos os pré-requisitos.
- Veja a nossa documentação de resolução de problemas de análise.
Utilize os seguintes passos para analisar o Azure Databricks para identificar automaticamente os recursos. Para obter mais informações sobre a análise em geral, consulte Análises e ingestão no Microsoft Purview.
Aceda a Origens.
Selecione o Azure Databricks registado.
Selecione + Nova análise.
Forneça os seguintes detalhes:
Nome: introduza um nome para a análise.
Ligar através do runtime de integração: escolha o runtime de integração do Azure predefinido, o IR da VNet Gerida ou um runtime de integração autoalojado suportado pelo Kubernetes que criou.
Credencial: selecione a credencial para ligar à sua origem de dados. Certifique-se de que:
- Selecione Token de Acesso, Identidade Gerida ou Principal de Serviço.
- Pode criar uma nova credencial do Token de Acesso ou do Principal de Serviço ao registar uma análise. Para obter mais informações, veja Credenciais para autenticação de origem no Microsoft Purview.
URL da área de trabalho: Indique o URL da área de trabalho que pretende analisar.
Caminho HTTP: Especifique o caminho HTTP do Databricks SQL Warehouse ao qual o Microsoft Purview se ligará e executará a análise, por exemplo.
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
. Pode encontrá-lo na área de trabalho do Azure Databricks -> SQL Warehouses -> o seu armazém -> Detalhes da ligação -> caminho HTTP.Extração de linhagem: Alterne a extração de linhagem para Ativado para obter a linhagem dos recursos analisados.
Selecione Testar ligação para validar as definições.
Selecione Continuar.
Em Acionador de análise, escolha se pretende configurar um agendamento ou executar a análise uma vez.
Reveja a análise e selecione Guardar e Executar.
Assim que a análise for concluída com êxito, veja como procurar e pesquisar recursos.
Ver as suas análises e execuções de análise
Para ver as análises existentes:
- Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
- Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .
- Selecione a análise que tem os resultados que pretende ver. O painel mostra-lhe todas as execuções de análise anteriores, juntamente com as status e as métricas de cada execução de análise.
- Selecione o ID de execução para marcar os detalhes da execução da análise.
Gerir as suas análises
Para editar, cancelar ou eliminar uma análise:
Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.
Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .
Selecione a análise que pretende gerir. Você poderá:
- Edite a análise ao selecionar Editar análise.
- Cancele uma análise em curso ao selecionar Cancelar execução de análise.
- Elimine a análise ao selecionar Eliminar análise.
Observação
- Eliminar a análise não elimina os recursos de catálogo criados a partir de análises anteriores.
Procurar e pesquisar recursos
Depois de analisar o Azure Databricks, pode procurar Catálogo unificado ou procurar Catálogo unificado para ver os detalhes e a linhagem dos recursos.
Ao navegar por tipos de origem, verá duas entradas para o Catálogo unity do Azure Databricks e o Azure Databricks , respetivamente. O primeiro contém os artefactos do Catálogo unity, incluindo o metastore e os respetivos catálogos/esquemas/tabelas/vistas, enquanto estes contêm os artefactos da área de trabalho.
No recurso da área de trabalho do Azure Databricks, pode encontrar o Catálogo do Unity associado no separador Propriedades. Também se aplica reverso.
Linhagem
Ao navegar num recurso específico do Azure Databricks, pode ver os blocos de notas que capturaram a linhagem.
Aceda ao separador ativo -> linhagem, pode ver a linhagem no recurso do Bloco de Notas do Azure Databricks ou no recurso de tabela/vista quando aplicável.
Veja a secção de capacidades suportadas nos cenários de linhagem do Catálogo Do Unity do Databricks suportados. Para obter mais informações sobre a linhagem em geral, veja Guia do utilizador da linhagem e linhagem de dados.
Perguntas frequentes (FAQ)
A linhagem ao nível da coluna do Catálogo do Unity é capturada pelo Microsoft Purview?
O Microsoft Purview pode capturar linhagem ao nível da tabela/vista do Catálogo do Unity e ao nível da coluna.
Não vejo linhagem ao nível da coluna, o que está a acontecer?
A linhagem ao nível da coluna é gerada quando o bloco de notas é executado a partir de um cluster e não é gerado através de um SQL Warehouse.
Estou a receber um erro de tempo limite, o que devo fazer?
Quando existe um grande volume de recursos na área de trabalho, a análise pode não ser concluída. Neste caso, pode definir o âmbito da análise para alguns catálogos de cada vez, o que reduzirá o volume de recursos por análise e permitirá que as suas análises sejam concluídas.
Acabei de executar o meu bloco de notas, mas o Microsoft Purview não obteve a linhagem. O que está a acontecer?
Poderá haver alguns minutos de atraso para o Databricks atualizar as informações de linhagem nas respetivas tabelas de sistema após a execução do bloco de notas. O Microsoft Purview poderá obter a linhagem assim que as tabelas do sistema forem atualizadas.
Próximas etapas
Agora que a sua origem está registada, utilize os seguintes guias para saber mais sobre o Microsoft Purview e os seus dados: