Qualidade dos dados das bases de dados do Catálogo do Unity do Databricks
Para utilizar o Catálogo do Unity, a área de trabalho do Azure Databricks tem de estar ativada para o Catálogo do Unity, o que significa que a área de trabalho está anexada a um metastore do Catálogo unity. Todas as novas áreas de trabalho são ativadas para o Catálogo do Unity automaticamente após a criação, mas as áreas de trabalho mais antigas podem exigir que um administrador de conta ative manualmente o Catálogo do Unity. Se a área de trabalho foi ou não ativada automaticamente para o Catálogo do Unity, também são necessários os seguintes passos para começar a utilizar o Catálogo do Unity:
- Crie catálogos e esquemas para conter objetos de base de dados, como tabelas e volumes.
- Crie localizações de armazenamento geridas para armazenar as tabelas e volumes geridos nestes catálogos e esquemas.
- Conceda acesso de utilizador a catálogos, esquemas e objetos de base de dados.
As áreas de trabalho que são ativadas automaticamente para o Catálogo do Unity aprovisionam um catálogo de áreas de trabalho com privilégios amplos concedidos a todos os utilizadores da área de trabalho. Este catálogo é um ponto de partida conveniente para experimentar o Catálogo do Unity.
Para obter instruções de configuração detalhadas, veja Configurar e gerir o Catálogo do Unity.
Ao analisar o Catálogo do Unity do Azure Databricks, o Microsoft Purview suporta:
- Metastore
- Catálogos
- Esquemas
- Tabelas, incluindo as colunas
- Vistas, incluindo as colunas
Ao configurar a análise, pode optar por analisar todo o Catálogo do Unity ou definir o âmbito da análise para um subconjunto de catálogos.
Configurar a análise do Mapa de Dados para catalogar dados do Catálogo Do Unity do Databricks no Microsoft Purview
- Registar uma área de trabalho do Azure Databricks no Microsoft Purview
- Analisar a área de trabalho do Azure Databricks registada
- Introduza o nome da análise
- Selecione o catálogo unity como método de extração
- Ligar através do runtime de integração (runtime de integração do Azure, IR da VNet Gerida ou um runtime de integração autoalojado suportado pelo Kubernetes que criou)
- Selecione Autenticação de Token de Acesso ao criar uma credencial. Para obter mais informações, veja Credenciais para autenticação de origem no Microsoft Purview.
- Especifique o caminho HTTP do Databricks SQL Warehouse ao qual o Microsoft Purview se irá ligar e executar a análise
- Na página Âmbito da análise, selecione os catálogos que pretende analisar.
- Selecione um conjunto de regras de análise para classificação. Pode escolher entre a predefinição do sistema, os conjuntos de regras personalizadas existentes ou criar um novo conjunto de regras inline. Consulte o artigo Classificação para saber mais.
- Em Acionador de análise, escolha se pretende configurar um agendamento ou executar a análise uma vez.
- Reveja a análise e selecione Guardar e Executar.
- Veja as análises e a execução da análise para concluir a catalogação dos seus dados.
Depois de analisado, o recurso de dados no Catálogo unity (UC) estará disponível na pesquisa do Catálogo Unificado do Microsoft Purview. Para obter mais detalhes sobre como ligar e gerir o Catálogo do Unity do Azure Databricks no Microsoft Purview, siga este documento.
Importante
- Selecione Autenticação de Token de Acesso ao criar uma credencial.
- Coloque o Token de Acesso no Azure alojado Key Vault e ligue o cofre de chaves ao gestor de ligações.
- Certifique-se de que fornece acesso de leitura (secreta) do MSI (serviço) ao Key Vault.
Configurar a ligação à UC do Databricks para análise da qualidade dos dados
Neste momento, temos o recurso analisado pronto para catalogação e governação. Associe o recurso analisado ao Produto de Dados numa Seleção de Domínio de Governação. No Separador Qualidade dos Dados, adicione um novo SQL do Azure Ligação à Base de Dados: Introduza manualmente o Nome da Base de Dados.
Selecione o separador Gestão de Domínio > de Governação de qualidade > de dados para criar ligação.
Configure a ligação na página de ligação.
- Adicionar nome e descrição da ligação
- selecionar o tipo de origem Azure Databricks
- selecionar URL da área de trabalho
- selecione Catálogo do Unity como método de extração
- selecionar caminho HTTP
- selecionar o nome do catálogo do unity
- selecionar o nome do esquema
- selecionar nome da tabela
- selecionar método de autenticação – Token de Acesso
- Adicionar subscrição do Azure
- Ligação ao cofre de chaves
- nome do segredo
- secret version
Testar ligação
Importante
- Os responsáveis pela qualidade dos dados precisam de acesso só de leitura ao Catálogo unity dos databrics do Azure para configurar a ligação de qualidade dos dados.
- A vNet ainda não é suportada.
Análise da criação de perfis e qualidade dos dados nas bases de dados do Catálogo unity do Azure Databricks.
Depois de concluída a configuração da ligação com êxito, pode criar perfis, criar e aplicar regras e executar a análise de DQ dos seus dados nas bases de dados do Catálogo Unity do Azure Databricks. Siga a orientação passo a passo descrita nos documentos abaixo:
- Como configurar e executar a criação de perfis de dados dos seus dados
- Como configurar e executar a análise da qualidade dos dados