Partilhar via


descrição geral do Qualidade de Dados do Microsoft Purview

Qualidade de Dados do Microsoft Purview é uma solução abrangente que capacita os proprietários de domínios e dados de governação a avaliar e supervisionar a qualidade do respetivo ecossistema de dados, facilitando ações direcionadas para melhorar. No panorama atual orientado pela IA, a fiabilidade dos dados afeta diretamente a precisão das informações e recomendações orientadas por IA. Sem dados fidedignos, existe o risco de corroer a confiança nos sistemas de IA e impedir a sua adoção.

A má qualidade dos dados ou as estruturas de dados incompatíveis podem dificultar os processos empresariais e as capacidades de tomada de decisões. Qualidade de Dados do Microsoft Purview resolve estes desafios ao oferecer aos utilizadores a capacidade de avaliar a qualidade dos dados através de regras sem código/de baixo código, incluindo regras OOB (out-of-the-box) e regras geradas por IA. Estas regras são aplicadas ao nível da coluna e agregadas para fornecer pontuações nos níveis de recursos de dados, produtos de dados e domínios de governação, garantindo a visibilidade ponto a ponto da qualidade dos dados em cada domínio.

Qualidade de Dados do Microsoft Purview também incorpora capacidades de criação de perfis de dados com tecnologia de IA, recomendando colunas para criação de perfis e permitindo que a intervenção humana refine estas recomendações. Este processo iterativo não só melhora a precisão da criação de perfis de dados, como também contribui para a melhoria contínua dos modelos de IA subjacentes.

Ao aplicar Qualidade de Dados do Microsoft Purview, as organizações podem medir, monitorizar e melhorar eficazmente a qualidade dos seus recursos de dados, reforçando a fiabilidade das informações orientadas por IA e fomentando a confiança nos processos de tomada de decisões baseados em IA.

Ciclo de vida da qualidade de dados

  1. Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
  2. Registe e analise uma origem de dados no seu Mapa de Dados do Microsoft Purview.
  3. Adicionar o recurso de dados a um produto de dados
  4. Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.
  5. Configure e execute a criação de perfis de dados para um recurso na sua origem de dados.
    1. Quando a criação de perfis estiver concluída, procure os resultados de cada coluna no recurso de dados para compreender a estrutura e o estado atuais dos seus dados.
  6. Configure regras de qualidade de dados com base nos resultados da criação de perfis e aplique-as ao recurso de dados.
  7. Configure e execute uma análise de qualidade de dados num produto de dados para avaliar a qualidade de todos os recursos suportados no produto de dados.
  8. Reveja os resultados da análise para avaliar a qualidade atual dos dados do produto de dados.
  9. Repita os passos 5 a 8 periodicamente ao longo do ciclo de vida do recurso de dados para garantir que mantém a qualidade.
  10. Monitorizar continuamente a qualidade dos dados
    1. Reveja as ações de qualidade dos dados para identificar e resolve problemas.
    2. Defina notificações de qualidade de dados para alertá-lo para problemas de qualidade.

Regiões de Qualidade de Dados Suportadas

Qualidade de Dados do Microsoft Purview é atualmente suportado nas seguintes regiões

Origens de dados multi cloud suportadas

  • Azure Data Lake Storage (ADLS Gen2)
    • Tipos de Ficheiro: Delta Parquet e Parquet
  • Banco de Dados SQL Azure
  • Recursos de infraestrutura de recursos de infraestrutura no OneLake, incluindo atalho e espelhamento do património de dados. A análise da Qualidade dos Dados é suportada apenas para tabelas delta do Lakehouse e ficheiros parquet.
    • Espelhamento do património de dados: CosmosDB, Snowflake, SQL do Azure
    • Propriedade de dados de atalho: AWS S3, GCS, AdlsG2 e dataverse
  • Azure Synapse armazém de dados e sem servidor
  • Catálogo do Unity no Azure Databricks
  • Snowflake
  • Google Big Query (Pré-visualização Privada)

Importante

A Qualidade dos Dados para o ficheiro Parquet foi concebida para suportar:

  1. Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O Nome Completamente Qualificado tem de seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Certifique-se de que não temos {n} padrões na estrutura de diretório/subdiretório. Em vez disso, tem de ser um FQN direto que conduza a {SparkPartitions}.
  2. Um diretório com Ficheiros Parquet Particionados, particionado por Colunas no conjunto de dados, como dados de vendas particionados por ano e mês. Por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ambos os cenários essenciais que apresentam um esquema de conjunto de dados parquet consistente são suportados.
Limitação: Não foi concebido para ou não suporta N Hierarquias arbitrárias de Diretórios com Ficheiros Parquet. Aconselhamos o cliente a apresentar dados na estrutura construída (1) ou (2).

Atualmente, o Microsoft Purview só pode executar análises de qualidade de dados com a Identidade Gerida como opção de autenticação. Os serviços de Qualidade de Dados são executados no Apache Spark 3.4 e no Delta Lake 2.4.

Funcionalidades de qualidade de dados

  • Configuração da ligação da origem de dados
    • Configure a ligação para permitir que a aplicação SaaS do DQ do Purview tenha acesso de leitura aos dados para Análise de qualidade e criação de perfis.
    • O MS Purview utiliza a Identidade Gerida como uma opção de autenticação
  • Criação de perfil de dados
    • Experiência de criação de perfis de dados ativada para IA
    • Snapshot estatística padrão da indústria (distribuição, min, máx., desvio padrão, exclusividade, conclusão, duplicado, ...)
    • Desagregar medidas de criação de perfis ao nível da coluna.
  • Regras de qualidade de dados
    • Regras in box para medir seis normas da indústria Dimensões de qualidade dos dados (integridade, consistência, conformidade, precisão, frescura e exclusividade)
    • As funcionalidades de criação de regras personalizadas incluem o número de funções e valores de expressão fora da caixa.
    • Regras geradas automaticamente com experiência integrada de IA
  • Análise da qualidade dos dados
    • Selecione e atribua regras a colunas para análise da qualidade dos dados.
    • Aplique a regra de atualização de dados ao nível da entidade/tabela para medir o SLA de atualização de dados.
    • Agendar tarefa de análise da qualidade dos dados para o período de tempo (hora a hora, diariamente, semanalmente, mensalmente, etc.)
  • Monitorização de tarefas de qualidade de dados
    • Ative a monitorização da tarefa de qualidade dos dados status (ativa, concluída, falhada, etc.)
    • Ative a navegação no histórico de análise do DQ.
  • Classificação da qualidade dos dados
    • Pontuação da Qualidade dos Dados ao nível da regra (qual é a classificação de qualidade de uma regra aplicada a uma coluna)
    • Pontuação da Qualidade dos Dados para Recursos de dados, Produtos de Dados e Domínios de Governação (um domínio de governação pode ter muitos produtos de dados, um produto de dados pode ter muitos recursos de dados, um recurso de dados pode ter muitas colunas de dados)
  • Qualidade dos dados para elementos de dados críticos (CDEs)
    • Esta é uma das principais funcionalidades da Qualidade de Dados do Purview, é a capacidade de aplicar regras de qualidade de dados à construção lógica de CDEs, que depois se propagam para os elementos de dados físicos que os compõem. Ao definir regras de qualidade de dados ao nível dos CDEs, as organizações podem estabelecer critérios e limiares específicos que os CDEs têm de cumprir para manter a sua qualidade
  • Alertas de qualidade de dados
    • Configure alertas para notificar os proprietários de dados, responsáveis pelos dados se o limiar de qualidade dos dados não tiver sido esperado.
    • configure o alias de e-mail ou o grupo de distribuição para enviar a notificação sobre problemas de qualidade de dados.
  • Ações de qualidade de dados
    • Centro de ações para DQ com ações para resolver estados de anomalias de DQ, incluindo consultas de diagnóstico do responsável pelo DQ para zero nos dados específicos a corrigir para cada estado de anomalia.
  • Rede virtual gerenciada de qualidade de dados
    • Uma rede virtual gerida pela qualidade dos dados que se liga aos pontos finais privados às origens de dados do Azure.

Limitação

  • A vNet não é suportada no catálogo do Unity Google Big Query, Snowflake e Azure Data Bricks.

Próximas etapas

  1. Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
  2. Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.
  3. Configure e execute a criação de perfis de dados para um recurso na sua origem de dados.