Compartilhar via


Configurar e executar a criação de perfis de dados para um recurso de dados

A criação de perfis de dados é o processo de examinar os dados disponíveis em diferentes origens de dados e recolher estatísticas e informações sobre estes dados. A criação de perfis de dados ajuda a avaliar o nível de qualidade dos dados de acordo com o conjunto definido de objetivos. Se os dados forem de má qualidade ou forem geridos em estruturas que não podem ser integradas para satisfazer as necessidades da empresa, os processos empresariais e a tomada de decisões sofrem. A criação de perfis de dados permite-lhe compreender a fiabilidade e a qualidade dos seus dados, que é um pré-requisito para tomar decisões orientadas por dados que impulsionam as receitas e promovem o crescimento.

Pré-requisitos

  • Para executar e agendar análises de avaliação da qualidade dos dados, os utilizadores têm de ter a função de responsável pela qualidade dos dados.
  • Atualmente, a conta do Microsoft Purview pode ser definida para permitir o acesso público ou acesso gerido à vNet para que as análises de qualidade de dados possam ser executadas.

Ciclo de vida da qualidade de dados

A criação de perfis de dados é o quinto passo do ciclo de vida da qualidade dos dados de um recurso de dados. Os passos anteriores são:

  1. Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
  2. Registe e analise uma origem de dados no seu Mapa de Dados do Microsoft Purview.
  3. Adicionar o recurso de dados a um produto de dados
  4. Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.

Origens de dados multicloud suportadas

  • Azure Data Lake Storage (ADLS Gen2)
    • Tipos de Ficheiro: Delta Parquet e Parquet
  • Banco de Dados SQL Azure
  • O património de dados de recursos de infraestrutura no OneLake inclui o atalho e o espelhamento do património de dados. A criação de perfis de dados é suportada apenas para tabelas delta do Lakehouse e ficheiros parquet.
    • Espelhamento do património de dados: Cosmos DB, Snowflake SQL do Azure
    • Propriedade de dados de atalho: AWS S3, GCS, AdlsG2 e Dataverse
  • Azure Synapse armazém de dados e sem servidor
  • Catálogo do Unity no Azure Databricks
  • Snowflake
  • Google Big Query (pré-visualização privada)

Importante

A Qualidade dos Dados para o ficheiro Parquet foi concebida para suportar:

  1. Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O Nome Completamente Qualificado tem de seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Certifique-se de que não temos {n} padrões na estrutura de diretório/subdiretório. Em vez disso, tem de ser um FQN direto que conduza a {SparkPartitions}.
  2. Um diretório com Ficheiros Parquet Particionados, particionado por Colunas no conjunto de dados, como dados de vendas particionados por ano e mês. Por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ambos os cenários essenciais que apresentam um esquema de conjunto de dados parquet consistente são suportados.
Limitação: Não foi concebido para ou não suporta N Hierarquias arbitrárias de Diretórios com Ficheiros Parquet. Aconselhamos o cliente a apresentar dados na estrutura construída (1) ou (2).

Métodos de autenticação suportados

Atualmente, o Microsoft Purview só pode executar análises de qualidade de dados com a Identidade Gerida como opção de autenticação. Os serviços de Qualidade de Dados são executados no Apache Spark 3.4 e no Delta Lake 2.4. Para obter mais informações sobre as regiões suportadas, veja Descrição geral da qualidade dos dados.

Importante

Se o esquema for atualizado na origem de dados, é necessário executar novamente a análise do mapa de dados antes de executar uma criação de perfis de dados.

Passos para configurar a Tarefa de criação de perfis de dados

  1. Configure uma ligação de origem de dados ao recurso se ainda não tiver criado uma.

  2. Em Catálogo unificado do Microsoft Purview, selecione o menu Gestão do Estado de Funcionamento e o submenu Qualidade dos dados.

  3. No submenu de qualidade dos dados, selecione o domínio de Governação para a criação de perfis de dados.

  4. Selecione um produto de dados para criar um perfil de um recurso de dados ligado a esse produto.

    Captura de ecrã do menu de qualidade dos dados a mostrar como selecionar um produto de dados.

  5. Selecione um recurso de dados para navegar para a página Descrição geral da qualidade dos dados para criação de perfis.

  6. Selecione o botão Perfil para executar a tarefa de criação de perfis para o recurso de dados selecionado.

    Captura de ecrã do separador descrição geral do recurso de dados, com o separador perfil realçado.

  7. O motor de recomendação de IA sugere colunas potencialmente importantes para executar a criação de perfis de dados. Pode desselecionar as colunas recomendadas e/ou selecionar mais colunas para criar perfis.

    Captura de ecrã a mostrar as sugestões da coluna de criação de perfis.

  8. Depois de selecionar as colunas relevantes, selecione Executar Perfil.

  9. Enquanto a tarefa está em execução, pode controlar o progresso da página de monitorização da qualidade dos dados no domínio de governação.

  10. Quando a tarefa estiver concluída, selecione o separador Perfil no menu esquerdo da página de qualidade de dados do recurso para listar procurar o resultado da criação de perfis e snapshot estatísticas. Podem existir várias páginas de resultados de perfil consoante o número de colunas que os recursos de dados têm.

    Captura de ecrã da página de criação de perfis com uma coluna realçada.

  11. Procure os resultados da criação de perfis e as medidas estatísticas de cada coluna.

    Captura de ecrã a mostrar a snapshot estatística de uma única coluna.

Importante

O formato Delta é maioritariamente detetado automaticamente se o formato for padrão e estiver correto nos sistemas de origem. Para criar perfis para o formato de ficheiro Parquet ou iceberg, tem de alterar o tipo de recurso de dados para Parquet ou iceberg. Conforme mostrado na captura de ecrã abaixo, altere o tipo de recurso de dados predefinido Parquet ou outro formato suportado se o formato de ficheiro do recurso de dados não for delta. Esta alteração tem de ser feita antes de configurar a tarefa de criação de perfis.

Captura de ecrã a mostrar a seleção do tipo de recurso.

Próximas etapas

  1. Configure regras de qualidade de dados com base nos resultados da criação de perfis e aplique-as ao recurso de dados.
  2. Configure e execute uma análise de qualidade de dados num produto de dados para avaliar a qualidade de todos os recursos suportados no produto de dados.
  3. Reveja os resultados da análise para avaliar a qualidade atual dos dados do produto de dados.