Compartilhar via


Qualidade dos dados das bases de dados do Catálogo do Unity do Databricks

Para utilizar o Catálogo do Unity, a área de trabalho do Azure Databricks tem de estar ativada para o Catálogo do Unity, o que significa que a área de trabalho está anexada a um metastore do Catálogo unity. Todas as novas áreas de trabalho são ativadas para o Catálogo do Unity automaticamente após a criação, mas as áreas de trabalho mais antigas podem exigir que um administrador de conta ative manualmente o Catálogo do Unity. Se a área de trabalho foi ou não ativada automaticamente para o Catálogo do Unity, também são necessários os seguintes passos para começar a utilizar o Catálogo do Unity:

  • Crie catálogos e esquemas para conter objetos de base de dados, como tabelas e volumes.
  • Crie localizações de armazenamento geridas para armazenar as tabelas e volumes geridos nestes catálogos e esquemas.
  • Conceda acesso de utilizador a catálogos, esquemas e objetos de base de dados.

As áreas de trabalho que são ativadas automaticamente para o Catálogo do Unity aprovisionam um catálogo de áreas de trabalho com privilégios amplos concedidos a todos os utilizadores da área de trabalho. Este catálogo é um ponto de partida conveniente para experimentar o Catálogo do Unity.

Para obter instruções de configuração detalhadas, veja Configurar e gerir o Catálogo do Unity.

Ao analisar o Catálogo do Unity do Azure Databricks, o Microsoft Purview suporta:

  • Metastore
  • Catálogos
  • Esquemas
  • Tabelas, incluindo as colunas
  • Vistas, incluindo as colunas

Ao configurar a análise, pode optar por analisar todo o Catálogo do Unity ou definir o âmbito da análise para um subconjunto de catálogos.

Configurar a análise do Mapa de Dados para catalogar dados do Catálogo Do Unity do Databricks no Microsoft Purview

  • Registar uma área de trabalho do Azure Databricks no Microsoft Purview
  • Analisar a área de trabalho do Azure Databricks registada
    • Introduza o nome da análise
    • Selecione o catálogo unity como método de extração
    • Ligar através do runtime de integração (runtime de integração do Azure, IR da VNet Gerida ou um runtime de integração autoalojado suportado pelo Kubernetes que criou)
    • Selecione Autenticação de Token de Acesso ao criar uma credencial. Para obter mais informações, veja Credenciais para autenticação de origem no Microsoft Purview.
    • Especifique o caminho HTTP do Databricks SQL Warehouse ao qual o Microsoft Purview se irá ligar e executar a análise
    • Na página Âmbito da análise, selecione os catálogos que pretende analisar.
    • Selecione um conjunto de regras de análise para classificação. Pode escolher entre a predefinição do sistema, os conjuntos de regras personalizadas existentes ou criar um novo conjunto de regras inline. Consulte o artigo Classificação para saber mais.
    • Em Acionador de análise, escolha se pretende configurar um agendamento ou executar a análise uma vez.
    • Reveja a análise e selecione Guardar e Executar.
  • Veja as análises e a execução da análise para concluir a catalogação dos seus dados.

Depois de analisado, o recurso de dados no Catálogo unity (UC) estará disponível na pesquisa do Catálogo Unificado do Microsoft Purview. Para obter mais detalhes sobre como ligar e gerir o Catálogo do Unity do Azure Databricks no Microsoft Purview, siga este documento.

Importante

  • Selecione Autenticação de Token de Acesso ao criar uma credencial.
  • Coloque o Token de Acesso no Azure alojado Key Vault e ligue o cofre de chaves ao gestor de ligações.
  • Certifique-se de que fornece acesso de leitura (secreta) do MSI (serviço) ao Key Vault.

Configurar a ligação à UC do Databricks para análise da qualidade dos dados

Neste momento, temos o recurso analisado pronto para catalogação e governação. Associe o recurso analisado ao Produto de Dados numa Seleção de Domínio de Governação. No Separador Qualidade dos Dados, adicione um novo SQL do Azure Ligação à Base de Dados: Introduza manualmente o Nome da Base de Dados.

  1. Selecione o separador Gestão de Domínio > de Governação de qualidade > de dados para criar ligação.

  2. Configure a ligação na página de ligação.

    • Adicionar nome e descrição da ligação
    • selecionar o tipo de origem Azure Databricks
    • selecionar URL da área de trabalho
    • selecione Catálogo do Unity como método de extração
    • selecionar caminho HTTP
    • selecionar o nome do catálogo do unity
    • selecionar o nome do esquema
    • selecionar nome da tabela
    • selecionar método de autenticação – Token de Acesso
      • Adicionar subscrição do Azure
      • Ligação ao cofre de chaves
      • nome do segredo
      • secret version
  3. Testar ligação

Captura de ecrã que mostra como configurar a ligação à UC do Databricks.

Captura de ecrã que mostra como configurar o token de ligação do Databricks.

Importante

  • Os responsáveis pela qualidade dos dados precisam de acesso só de leitura ao Catálogo unity dos databrics do Azure para configurar a ligação de qualidade dos dados.
  • A vNet ainda não é suportada.

Análise da criação de perfis e qualidade dos dados nas bases de dados do Catálogo unity do Azure Databricks.

Depois de concluída a configuração da ligação com êxito, pode criar perfis, criar e aplicar regras e executar a análise de DQ dos seus dados nas bases de dados do Catálogo Unity do Azure Databricks. Siga a orientação passo a passo descrita nos documentos abaixo:

Documentos de referência