Configurar a ligação da origem de dados para ligar origens de dados para avaliação da qualidade dos dados
As ligações de origem de dados configuram a autenticação necessária para criar perfis de dados para snapshot estatísticas ou analisar os seus dados quanto a anomalias e classificação de qualidade de dados.
Configurar ligações de origem de dados é o quarto passo no ciclo de vida da qualidade de dados de um recurso de dados. Os passos anteriores são:
- Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
- Registe e analise uma origem de dados no seu Mapa de Dados do Microsoft Purview.
- Adicionar o recurso de dados a um produto de dados
Pré-requisitos
- Para criar ligações a recursos de dados, os utilizadores têm de ter a função de responsável pela qualidade dos dados.
- Precisa, pelo menos, de acesso de leitura à origem de dados para a qual está a configurar a ligação.
Origens de dados multicloud suportadas
- Azure Data Lake Storage Gen2
- Tipos de Ficheiro: Delta Parquet e Parquet
- Banco de Dados SQL Azure
- Recursos de infraestrutura de recursos de infraestrutura no OneLake, incluindo atalho e espelhamento do património de dados. A análise da Qualidade dos Dados é suportada apenas para tabelas delta do Lakehouse e ficheiros parquet.
- Espelhamento do património de dados: Cosmos DB, Snowflake SQL do Azure
- Propriedade de dados de atalho: AWS S3, GCS, AdlsG2
- Azure Synapse armazém de dados e sem servidor
- Catálogo do Unity no Azure Databricks
- Snowflake
- Google Big Query (Pré-visualização Privada)
Atualmente, o Microsoft Purview só pode executar análises de qualidade de dados com a Identidade Gerida como opção de autenticação. Os serviços de Qualidade de Dados são executados no Apache Spark 3.4 e no Delta Lake 2.4.
Importante
Para aceder a estas origens, tem de definir as origens de Armazenamento do Azure para ter uma firewall aberta, para Permitir Serviços Fidedignos do Azure ou para utilizar pontos finais privados, siga a orientação documentada no guia de configuração da rede virtual gerida de qualidade de dados.
Configurar ligação de origem de dados
Em Catálogo unificado, selecione Gestão de estado de funcionamento e, em seguida, selecione Qualidade dos dados.
Selecione um domínio de governação na lista.
Na lista pendente Gerir, selecione Connections para abrir a página de ligações.
Selecione Novo para criar uma nova ligação para os produtos de dados e recursos de dados do seu domínio de governação.
No painel direito, introduza as seguintes informações:
- Nome de Exibição
- Descrição
Selecione Tipo de origem e selecione uma das origens de dados.
Consoante a origem de dados, introduza os detalhes de acesso.
Se a ligação de teste for bem-sucedida, submeta a configuração da ligação para concluir a configuração da ligação.
Dica
Também pode criar uma ligação aos seus recursos com pontos finais privados e uma rede virtual gerida Qualidade de Dados do Microsoft Purview. Para obter mais informações, veja o artigo rede virtual gerida.
Os passos de configuração da ligação variam para conectores nativos. Verifique os passos de configuração da ligação a partir de documentos de conectores nativos para configurar a ligação para conectores Azure Databricsks, Snowflake, GoogBigQuery e synapse.
Conceder permissões ao Microsoft Purview na origem
Agora que a ligação foi criada, para poder analisar origens de dados, a identidade gerida do Microsoft Purview precisará de permissões nas suas origens de dados:
Para analisar Azure Data Lake Storage Gen2, a função de leitor de dados do blob de armazenamento tem de ser atribuída à Identidade Gerida do Microsoft Purview. Pode seguir os passos na página de origem para atribuir permissões de identidade gerida..
Para analisar uma base de dados SQL do Azure, atribua db_datareader função à Identidade Gerida do Microsoft Purview. Pode seguir os passos na página de origem para atribuir permissões de identidade gerida..
Conteúdos relacionados
- Qualidade dos Dados para o património de Dados dos Recursos de Infraestrutura
- Qualidade dos Dados para origens de dados espelhadas dos Recursos de Infraestrutura
- Qualidade dos Dados para origens de dados de atalho dos Recursos de Infraestrutura
- Qualidade de Dados para Azure Synapse armazéns de dados e sem servidor
- Qualidade dos Dados para o Catálogo do Unity do Azure Databricks
- Qualidade de Dados para origens de dados do Snowflake
- Qualidade de Dados para o Google Big Query
Próximas etapas
- Configure e execute a criação de perfis de dados para um recurso na sua origem de dados.
- Configure regras de qualidade de dados com base nos resultados da criação de perfis e aplique-as ao recurso de dados.
- Configure e execute uma análise de qualidade de dados num produto de dados para avaliar a qualidade de todos os recursos suportados no produto de dados.
- Reveja os resultados da análise para avaliar a qualidade atual dos dados do produto de dados.