Configurar e executar a análise da qualidade dos dados
As análises de qualidade dos dados analisam os recursos de dados com base nas regras de qualidade dos dados aplicadas e produzem uma classificação. Os responsáveis pelos dados podem utilizar essa classificação para avaliar o estado de funcionamento dos dados e resolver quaisquer problemas que possam estar a reduzir a qualidade dos seus dados.
Pré-requisitos
- Para executar e agendar análises de avaliação da qualidade dos dados, os utilizadores têm de ter a função de responsável pela qualidade dos dados.
- Atualmente, a conta do Microsoft Purview pode ser definida para permitir o acesso público ou o acesso gerido à vNet para que as análises de qualidade dos dados possam ser executadas.
Ciclo de vida da qualidade de dados
A análise da qualidade dos dados é o sétimo passo do ciclo de vida da qualidade de dados de um recurso de dados. Os passos anteriores são:
- Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
- Registe e analise uma origem de dados no seu Mapa de Dados do Microsoft Purview.
- Adicionar o recurso de dados a um produto de dados
- Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.
-
Configure e execute a criação de perfis de dados para um recurso na sua origem de dados.
- Quando a criação de perfis estiver concluída, procure os resultados de cada coluna no recurso de dados para compreender a estrutura e o estado atuais dos seus dados.
- Configure regras de qualidade de dados com base nos resultados da criação de perfis e aplique-as ao recurso de dados.
Origens de dados multi cloud suportadas
- Azure Data Lake Storage (ADLS Gen2)
- Tipos de Ficheiro: Delta Parquet e Parquet
- Banco de Dados SQL Azure
- O património de dados de recursos de infraestrutura no OneLake inclui o atalho e o espelhamento do património de dados. A análise da qualidade dos dados é suportada apenas para tabelas delta do Lakehouse e ficheiros parquet.
- Espelhamento do património de dados: CosmosDB, Snowflake, SQL do Azure
- Propriedade de dados de atalho: AWS S3, GCS, AdlsG2 e Dataverse
- Azure Synapse armazém de dados e sem servidor
- Catálogo do Unity no Azure Databricks
- Snowflake
- Google Big Query (pré-visualização)
- Dados de iceberg no ADLS Gen2, Microsoft Fabric Lakehouse, AWS S3 e GCP GCS
Importante
A qualidade dos dados do ficheiro Parquet foi concebida para suportar:
- Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O Nome Completamente Qualificado tem de seguir
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Certifique-se de que não temos {n} padrões na estrutura de diretório/subdiretório. Em vez disso, tem de ser um FQN direto que conduza a {SparkPartitions}. - Um diretório com Ficheiros Parquet Particionados, particionado por Colunas no conjunto de dados, como dados de vendas particionados por ano e mês. por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Ambos os cenários essenciais, que apresentam um esquema de conjunto de dados parquet consistente, são suportados. Limitação: Não foi concebido para ou não suporta N Hierarquias arbitrárias de Diretórios com Ficheiros Parquet. Recomendamos a apresentação de dados na estrutura construída (1) ou (2).
Métodos de autenticação suportados
Atualmente, o Microsoft Purview só pode executar análises de qualidade de dados com a Identidade Gerida como opção de autenticação. Os serviços de qualidade de dados são executados no Apache Spark 3.4 e no Delta Lake 2.4. Para obter mais informações sobre as regiões suportadas, veja Descrição geral da qualidade dos dados.
Importante
- Se o esquema for atualizado na origem de dados, é necessário executar novamente a análise do mapa de dados antes de executar uma análise de qualidade de dados. Também pode utilizar a funcionalidade de importação de esquemas a partir da página Descrição geral da qualidade dos dados.
- A importação de esquema não é suportada para origens de dados em execução na vNet gerida ou no ponto final privado.
- A vNet não é suportada para o Azure Databricks, o Google BigQuery e o Snowflake
Executar uma análise de qualidade de dados
Configure uma ligação de origem de dados para os recursos que está a analisar relativamente à qualidade dos dados , caso ainda não o tenha feito.
Em Catálogo unificado do Microsoft Purview, selecione Gestão do Estado de Funcionamento e, em seguida, selecione Qualidade dos dados.
Selecione um domínio de governação na lista.
Selecione um produto de dados para avaliar a qualidade dos dados dos recursos de dados associados a esse produto.
Selecione o nome de um recurso de dados, que o leva à página Descrição Geral da qualidade dos dados.
Pode procurar as regras de qualidade de dados existentes e adicionar novas regras ao selecionar Regras. Pode procurar o esquema do recurso de dados ao selecionar Esquema. Pode ativar ou desativar as regras já adicionadas.
Execute a análise de qualidade ao selecionar Executar análise de qualidade na página de descrição geral.
Enquanto a análise está em execução, pode controlar o progresso da página de monitorização da qualidade dos dados no domínio de governação.
Agendar análises de qualidade de dados
Embora as análises de qualidade de dados possam ser executadas ad hoc ao selecionar o botão Executar análise de qualidade, em cenários de produção é provável que os dados de origem estejam constantemente atualizados e, por isso, queremos ter a certeza de que monitorizamos regularmente a qualidade dos dados para detetar quaisquer problemas. Para nos permitir gerir análises de qualidade de atualização regulares, podemos automatizar o processo de análise.
Em Catálogo unificado do Microsoft Purview, selecione Gestão do Estado de Funcionamento e, em seguida, selecione Qualidade dos dados.
Selecione um domínio de governação na lista.
Selecione Gerir e, em seguida, selecione Análises agendadas.
Preencha o formulário na página Criar análise agendada . Adicione um nome e uma descrição para a origem que está a configurar a agenda.
Selecione Continuar.
No separador Âmbito , selecione produtos e recursos de dados individuais ou todos os produtos de dados e recursos de dados de todo o domínio de governação.
Selecione Continuar.
Defina uma agenda com base nas suas preferências e selecione Continuar.
No separador Rever , selecione Guardar (ou Guardar e executar para testar imediatamente) para concluir o agendamento da análise de avaliação da qualidade dos dados.
Pode monitorizar as análises agendadas na página de monitorização da tarefa de qualidade de dados no separador Análises .
Eliminar análises e histórico de qualidade de dados anteriores
Quando remove um recurso de dados de um produto de dados, se esse recurso de dados tiver uma classificação de qualidade de dados, primeiro terá de eliminar a classificação de qualidade dos dados e, em seguida, remover o recurso de dados do produto de dados.
Quando elimina dados do histórico de qualidade de dados, remove o histórico de perfis, o histórico de análise da qualidade dos dados e as regras de qualidade dos dados, mas as ações de qualidade dos dados não serão eliminadas.
Siga os passos abaixo para eliminar análises de qualidade de dados anteriores:
- Em Catálogo unificado do Microsoft Purview, selecione o menu Gestão do Estado de Funcionamento e Submenu Qualidade dos dados.
- Selecione um domínio de governação na lista.
- Selecione as reticências (...) no canto superior direito da página.
- Selecione Eliminar dados de qualidade de dados para eliminar o histórico de execuções de qualidade de dados.
Observação
- Recomendamos que utilize apenas Eliminar dados de qualidade de dados para execuções de testes, execuções de qualidade de dados com erro ou se estiver a remover um recurso de dados de um produto de dados.
- Armazenamos até 50 instantâneos de criação de perfis de qualidade de dados e histórico de avaliação da qualidade dos dados. Se quiser eliminar uma snapshot específica, selecione a execução do histórico pretendido e selecione o ícone eliminar.
Conteúdo relacionado
- Qualidade dos dados para o património de Dados dos Recursos de Infraestrutura
- Qualidade dos dados das origens de dados espelhadas dos Recursos de Infraestrutura
- Qualidade de dados para fontes de dados de atalho do Fabric
- Qualidade dos dados para Azure Synapse armazéns de dados e sem servidor
- Qualidade de dados para Catálogo Azure Databricks Unity
- Qualidade dos dados para origens de dados do Snowflake
- Qualidade dos dados do Google Big Query
Próximas etapas
- Monitorizar a análise da qualidade dos dados
- Reveja os resultados da análise para avaliar a qualidade atual dos dados do produto de dados.
- Configurar alertas para resultados de análise de qualidade de dados