Configurar e executar a análise da qualidade dos dados
As análises de qualidade dos dados analisam os recursos de dados com base nas regras de qualidade dos dados aplicadas e produzem uma classificação. Os responsáveis pelos dados podem utilizar essa classificação para avaliar o estado de funcionamento dos dados e resolver quaisquer problemas que possam estar a reduzir a qualidade dos seus dados.
Pré-requisitos
- Para executar e agendar análises de avaliação da qualidade dos dados, os utilizadores têm de ter a função de responsável pela qualidade dos dados.
- Atualmente, a conta do Microsoft Purview pode ser definida para permitir o acesso público ou o acesso gerido à vNet para que as análises de qualidade dos dados possam ser executadas.
Ciclo de vida da qualidade de dados
A análise da qualidade dos dados é o sétimo passo do ciclo de vida da qualidade de dados de um recurso de dados. Os passos anteriores são:
- Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
- Registe e analise uma origem de dados no seu Mapa de Dados do Microsoft Purview.
- Adicionar o recurso de dados a um produto de dados
- Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.
-
Configure e execute a criação de perfis de dados para um recurso na sua origem de dados.
- Quando a criação de perfis estiver concluída, procure os resultados de cada coluna no recurso de dados para compreender a estrutura e o estado atuais dos seus dados.
- Configure regras de qualidade de dados com base nos resultados da criação de perfis e aplique-as ao recurso de dados.
Origens de dados multi cloud suportadas
- Azure Data Lake Storage (ADLS Gen2)
- Tipos de Ficheiro: Delta Parquet e Parquet
- Banco de Dados SQL Azure
- O património de dados de recursos de infraestrutura no OneLake inclui o atalho e o espelhamento do património de dados. A análise da Qualidade dos Dados é suportada apenas para tabelas delta do Lakehouse e ficheiros parquet.
- Espelhamento do património de dados: CosmosDB, Snowflake, SQL do Azure
- Propriedade de dados de atalho: AWS S3, GCS, AdlsG2 e dataverse
- Azure Synapse armazém de dados e sem servidor
- Catálogo do Unity no Azure Databricks
- Snowflake
- Google Big Query (Pré-visualização Privada)
Importante
A Qualidade dos Dados para o ficheiro Parquet foi concebida para suportar:
- Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O Nome Completamente Qualificado tem de seguir
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Certifique-se de que não temos {n} padrões na estrutura de diretório/subdiretório. Em vez disso, tem de ser um FQN direto que conduza a {SparkPartitions}. - Um diretório com Ficheiros Parquet Particionados, particionado por Colunas no conjunto de dados, como dados de vendas particionados por ano e mês. por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Ambos os cenários essenciais que apresentam um esquema de conjunto de dados parquet consistente são suportados.
Limitação: Não foi concebido para ou não suporta N Hierarquias arbitrárias de Diretórios com Ficheiros Parquet.
Aconselhamos o cliente a apresentar dados na estrutura construída (1) ou (2).
Métodos de autenticação suportados
Atualmente, o Microsoft Purview só pode executar análises de qualidade de dados com a Identidade Gerida como opção de autenticação. Os serviços de Qualidade de Dados são executados no Apache Spark 3.4 e no Delta Lake 2.4. Para obter mais informações sobre as regiões suportadas, veja Descrição geral da qualidade dos dados.
Importante
Se o esquema for atualizado na origem de dados, é necessário executar novamente a análise do mapa de dados antes de executar uma análise de qualidade de dados.
Executar uma análise de qualidade de dados
Configure uma ligação de origem de dados para os recursos que está a analisar quanto à qualidade dos dados, caso ainda não as tenha criado.
Em Catálogo unificado do Microsoft Purview, selecione o menu Gestão do Estado de Funcionamento e Submenu Qualidade dos dados.
Selecione um domínio de governação na lista.
Selecione um produto de dados para avaliar a qualidade dos dados dos recursos de dados associados a esse produto.
Selecionar o produto de dados leva-o para a página Descrição geral da qualidade dos dados. Pode procurar as regras de qualidade de dados existentes e adicionar novas regras ao selecionar o menu Regras nesta página. Pode procurar o esquema do recurso de dados ao selecionar o menu Esquema a partir desta página.
Procure as regras que já foram adicionadas à análise dos recursos selecionados e ative-os ou desative-os na coluna Estado .
Execute a análise de qualidade ao selecionar o botão Executar análise de qualidade na página de descrição geral.
Enquanto a análise está em execução, pode controlar o progresso da página de monitorização da qualidade dos dados no domínio de governação.
Agendar análises de qualidade de dados
Embora as análises de qualidade de dados possam ser executadas ad hoc ao selecionar o botão Executar análise de qualidade, em cenários de produção é provável que os dados de origem estejam constantemente atualizados e, por isso, queremos ter a certeza de que monitorizamos regularmente a qualidade dos dados para detetar quaisquer problemas. Para nos permitir gerir análises de qualidade de atualização regulares, podemos automatizar o processo de análise.
Em Catálogo unificado do Microsoft Purview, selecione o menu Gestão do Estado de Funcionamento e Submenu Qualidade dos dados.
Selecione um domínio de governação na lista.
Selecione o botão Gerir no lado direito da página e selecione Análises agendadas.
Preencha o formulário na página Criar análise agendada . Adicione um nome e uma descrição para a origem que está a configurar a agenda.
Selecione Continuar.
No separador Âmbito , selecione produtos e recursos de dados individuais ou todos os produtos de dados e recursos de dados de todo o domínio de governação.
Selecione Continuar.
Defina uma agenda com base nas suas preferências e selecione Continuar.
No separador Rever, selecione Guardar (ou Guardar e executar para testar imediatamente) para concluir o agendamento da análise de avaliação da qualidade dos dados.
Pode monitorizar as análises agendadas na página de monitorização da tarefa de qualidade de dados no separador Análises .
Eliminar análises de qualidade de dados anteriores
- Em Catálogo unificado do Microsoft Purview, selecione o menu Gestão do Estado de Funcionamento e Submenu Qualidade dos dados.
- Selecione um domínio de governação na lista.
- Selecione o botão de reticências ('...') na parte superior da página.
- Selecione Eliminar dados de qualidade de dados para eliminar o histórico de execuções de qualidade de dados.
Observação
Recomendamos que utilize apenas esta eliminação para execuções de testes, execuções de qualidade de dados com erro ou caso esteja a remover um recurso de dados de um produto de dados.
Se quiser remover um recurso de dados de um produto de dados, se esse recurso de dados tiver uma classificação de qualidade de dados, primeiro terá de eliminar a classificação de qualidade dos dados e, em seguida, remover o recurso de dados do produto de dados.
Importante
O formato Delta é maioritariamente detetado automaticamente se o formato for padrão e estiver correto nos sistemas de origem. Para analisar o formato de ficheiro Parquet ou iceberg para obter a classificação da qualidade dos dados, tem de alterar o tipo de recurso de dados para Parquet ou iceberg. Conforme mostrado na captura de ecrã abaixo, altere o tipo de recurso de dados predefinido *Parquet ou outro formato suportado se o formato de ficheiro do recurso de dados não for delta. Esta alteração tem de ser feita antes de configurar a tarefa de análise da Qualidade dos Dados.
Conteúdos relacionados
- Qualidade dos Dados para o património de Dados dos Recursos de Infraestrutura
- Qualidade dos Dados para origens de dados espelhadas dos Recursos de Infraestrutura
- Qualidade dos Dados para origens de dados de atalho dos Recursos de Infraestrutura
- Qualidade de Dados para Azure Synapse armazéns de dados e sem servidor
- Qualidade dos Dados para o Catálogo do Unity do Azure Databricks
- Qualidade de Dados para origens de dados do Snowflake
- Qualidade de Dados para o Google Big Query
Próximas etapas
- Monitorizar a análise da qualidade dos dados
- Reveja os resultados da análise para avaliar a qualidade atual dos dados do produto de dados.
- Configurar alertas para resultados de análise de qualidade de dados