Configurar e executar a criação de perfis de dados para um recurso de dados
A criação de perfis de dados é o processo de examinar os dados disponíveis em diferentes origens de dados e recolher estatísticas e informações sobre estes dados. A criação de perfis de dados ajuda a avaliar o nível de qualidade dos dados de acordo com o conjunto definido de objetivos. Se os dados forem de má qualidade ou forem geridos em estruturas que não podem ser integradas para satisfazer as necessidades da empresa, os processos empresariais e a tomada de decisões sofrem. A criação de perfis de dados permite-lhe compreender a fiabilidade e a qualidade dos seus dados, que é um pré-requisito para tomar decisões orientadas por dados que impulsionam as receitas e promovem o crescimento.
Pré-requisitos
- Para executar e agendar análises de avaliação da qualidade dos dados, os utilizadores têm de ter a função de responsável pela qualidade dos dados.
- Atualmente, a conta do Microsoft Purview pode ser definida para permitir o acesso público ou acesso gerido à vNet para que as análises de qualidade de dados possam ser executadas.
Ciclo de vida da qualidade de dados
A criação de perfis de dados é o quinto passo do ciclo de vida da qualidade dos dados de um recurso de dados. Os passos anteriores são:
- Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
- Registe e analise uma origem de dados no seu Mapa de Dados do Microsoft Purview.
- Adicionar o recurso de dados a um produto de dados
- Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.
Origens de dados multicloud suportadas
- Azure Data Lake Storage (ADLS Gen2)
- Tipos de Ficheiro: Delta Parquet e Parquet
- Banco de Dados SQL Azure
- O património de dados de recursos de infraestrutura no OneLake inclui o atalho e o espelhamento do património de dados. A criação de perfis de dados é suportada apenas para tabelas delta do Lakehouse e ficheiros parquet.
- Espelhamento do património de dados: Cosmos DB, Snowflake SQL do Azure
- Propriedade de dados de atalho: AWS S3, GCS, AdlsG2 e Dataverse
- Azure Synapse armazém de dados e sem servidor
- Catálogo do Unity no Azure Databricks
- Snowflake
- Google Big Query (pré-visualização privada)
Importante
A Qualidade dos Dados para o ficheiro Parquet foi concebida para suportar:
- Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O Nome Completamente Qualificado tem de seguir
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Certifique-se de que não temos {n} padrões na estrutura de diretório/subdiretório. Em vez disso, tem de ser um FQN direto que conduza a {SparkPartitions}. - Um diretório com Ficheiros Parquet Particionados, particionado por Colunas no conjunto de dados, como dados de vendas particionados por ano e mês. Por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Ambos os cenários essenciais que apresentam um esquema de conjunto de dados parquet consistente são suportados.
Limitação: Não foi concebido para ou não suporta N Hierarquias arbitrárias de Diretórios com Ficheiros Parquet.
Aconselhamos o cliente a apresentar dados na estrutura construída (1) ou (2).
Métodos de autenticação suportados
Atualmente, o Microsoft Purview só pode executar análises de qualidade de dados com a Identidade Gerida como opção de autenticação. Os serviços de Qualidade de Dados são executados no Apache Spark 3.4 e no Delta Lake 2.4. Para obter mais informações sobre as regiões suportadas, veja Descrição geral da qualidade dos dados.
Importante
Se o esquema for atualizado na origem de dados, é necessário executar novamente a análise do mapa de dados antes de executar uma criação de perfis de dados.
Passos para configurar a Tarefa de criação de perfis de dados
Configure uma ligação de origem de dados ao recurso se ainda não tiver criado uma.
Em Catálogo unificado do Microsoft Purview, selecione o menu Gestão do Estado de Funcionamento e o submenu Qualidade dos dados.
No submenu de qualidade dos dados, selecione o domínio de Governação para a criação de perfis de dados.
Selecione um produto de dados para criar um perfil de um recurso de dados ligado a esse produto.
Selecione um recurso de dados para navegar para a página Descrição geral da qualidade dos dados para criação de perfis.
Selecione o botão Perfil para executar a tarefa de criação de perfis para o recurso de dados selecionado.
O motor de recomendação de IA sugere colunas potencialmente importantes para executar a criação de perfis de dados. Pode desselecionar as colunas recomendadas e/ou selecionar mais colunas para criar perfis.
Depois de selecionar as colunas relevantes, selecione Executar Perfil.
Enquanto a tarefa está em execução, pode controlar o progresso da página de monitorização da qualidade dos dados no domínio de governação.
Quando a tarefa estiver concluída, selecione o separador Perfil no menu esquerdo da página de qualidade de dados do recurso para listar procurar o resultado da criação de perfis e snapshot estatísticas. Podem existir várias páginas de resultados de perfil consoante o número de colunas que os recursos de dados têm.
Procure os resultados da criação de perfis e as medidas estatísticas de cada coluna.
Importante
O formato Delta é maioritariamente detetado automaticamente se o formato for padrão e estiver correto nos sistemas de origem. Para criar perfis para o formato de ficheiro Parquet ou iceberg, tem de alterar o tipo de recurso de dados para Parquet ou iceberg. Conforme mostrado na captura de ecrã abaixo, altere o tipo de recurso de dados predefinido Parquet ou outro formato suportado se o formato de ficheiro do recurso de dados não for delta. Esta alteração tem de ser feita antes de configurar a tarefa de criação de perfis.
Conteúdos relacionados
- Qualidade dos Dados para o património de Dados dos Recursos de Infraestrutura
- Qualidade dos Dados para origens de dados espelhadas dos Recursos de Infraestrutura
- Qualidade dos Dados para origens de dados de atalho dos Recursos de Infraestrutura
- Qualidade de Dados para Azure Synapse armazéns de dados e sem servidor
- Qualidade dos Dados para o Catálogo do Unity do Azure Databricks
- Qualidade de Dados para origens de dados do Snowflake
- Qualidade de Dados para o Google Big Query
Próximas etapas
- Configure regras de qualidade de dados com base nos resultados da criação de perfis e aplique-as ao recurso de dados.
- Configure e execute uma análise de qualidade de dados num produto de dados para avaliar a qualidade de todos os recursos suportados no produto de dados.
- Reveja os resultados da análise para avaliar a qualidade atual dos dados do produto de dados.