Condividi tramite


Qualità dei dati con Microsoft Purview Unified Catalog

La qualità dei dati in Microsoft Purview Unified Catalog consente ai proprietari del dominio di governance e dei dati di valutare e supervisionare la qualità del proprio ecosistema di dati, facilitando azioni mirate per il miglioramento. Nell'attuale panorama basato sull'intelligenza artificiale, l'affidabilità dei dati influisce direttamente sull'accuratezza delle informazioni dettagliate e delle raccomandazioni basate sull'IA. Senza dati affidabili, c'è il rischio di erodere la fiducia nei sistemi di IA e di ostacolarne l'adozione.

La scarsa qualità dei dati o strutture di dati incompatibili possono ostacolare i processi aziendali e le funzionalità decisionali. La qualità dei dati risolve questi problemi offrendo agli utenti la possibilità di valutare la qualità dei dati usando regole senza codice/codice basso, incluse le regole predefinite (OOB) e le regole generate dall'intelligenza artificiale. Queste regole vengono applicate a livello di colonna e aggregate per fornire punteggi a livello di asset di dati, prodotti dati e domini di governance, garantendo una visibilità end-to-end della qualità dei dati all'interno di ogni dominio.

La qualità dei dati incorpora anche funzionalità di profilatura dei dati basate sull'intelligenza artificiale, consigliando le colonne per la profilatura, consentendo al contempo all'intervento umano di perfezionare queste raccomandazioni. Questo processo iterativo non solo migliora l'accuratezza della profilatura dei dati, ma contribuisce anche al miglioramento continuo dei modelli di intelligenza artificiale sottostanti.

Applicando la qualità dei dati, le organizzazioni possono misurare, monitorare e migliorare in modo efficace la qualità degli asset di dati, aumentando l'affidabilità delle informazioni dettagliate basate sull'intelligenza artificiale e promuovendo la fiducia nei processi decisionali basati sull'IA.

Ciclo di vita della qualità dei dati

  1. Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati in Unified Catalog per usare tutte le funzionalità di qualità dei dati.
  2. Registrare ed analizzare un'origine dati nel Microsoft Purview Data Map.
  3. Aggiungere l'asset di dati a un prodotto dati
  4. Configurare una connessione all'origine dati per preparare l'origine per la valutazione della qualità dei dati.
  5. Configurare ed eseguire la profilatura dei dati per un asset nell'origine dati.
    1. Al termine della profilatura, esplorare i risultati di ogni colonna nell'asset di dati per comprendere la struttura e lo stato correnti dei dati.
  6. Configurare le regole di qualità dei dati in base ai risultati della profilatura e applicarle all'asset di dati.
  7. Configurare ed eseguire un'analisi della qualità dei dati in un prodotto dati per valutare la qualità di tutti gli asset supportati nel prodotto dati.
  8. Esaminare i risultati dell'analisi per valutare la qualità dei dati corrente del prodotto dati.
  9. Ripetere periodicamente i passaggi da 5 a 8 durante il ciclo di vita dell'asset di dati per garantire la qualità.
  10. Monitorare continuamente la qualità dei dati
    1. Esaminare le azioni di qualità dei dati per identificare e risolvere i problemi.
    2. Impostare le notifiche sulla qualità dei dati per segnalare problemi di qualità.

Aree di qualità dei dati supportate

La qualità dei dati è attualmente supportata nelle aree seguenti.

Origini dati multicloud supportate

Visualizzare l'elenco delle origini dati supportate.

Importante

La qualità dei dati per il file Parquet è progettata per supportare:

  1. Directory con il file di parte Parquet. Ad esempio: ./Sales/{Parquet Part Files}. Il nome completo deve seguire https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Assicurarsi di non avere {n} modelli nella struttura di directory/sottodirectory, ma deve essere un FQN diretto che porta a {SparkPartitions}.
  2. Directory con file Parquet partizionati, partizionata in base alle colonne all'interno del set di dati, ad esempio i dati di vendita partizionati per anno e mese. Ad esempio: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Sono supportati entrambi questi scenari essenziali, che presentano uno schema coerente del set di dati Parquet. Limitazione: Non è progettato per o non supporta N gerarchie arbitrarie di directory con file Parquet. È consigliabile presentare i dati nella struttura costruita (1) o (2).

Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi data quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4.

Funzionalità di qualità dei dati

  • Configurazione della connessione all'origine dati
    • Configurare la connessione per consentire all'applicazione SaaS Purview DQ di avere accesso in lettura ai dati per l'analisi e la profilatura della qualità.
    • MS Purview usa l'identità gestita come opzione di autenticazione
  • Profilatura dei dati
    • Esperienza di profilatura dei dati abilitata per l'intelligenza artificiale
    • Snapshot statistico standard del settore (distribuzione, min, max, deviazione standard, univocità, completezza, duplicato, ...)
    • Eseguire il drill-down delle misure di profilatura a livello di colonna.
  • Regole di qualità dei dati
    • Regole predefinite per misurare sei standard di settore Dimensioni di qualità dei dati (completezza, coerenza, conformità, accuratezza, freschezza e univocità)
    • Le funzionalità di creazione di regole personalizzate includono il numero di funzioni predefinite e i valori delle espressioni.
    • Regole generate automaticamente con esperienza integrata di intelligenza artificiale
  • Analisi della qualità dei dati
    • Selezionare e assegnare regole alle colonne per l'analisi della qualità dei dati.
    • Applicare la regola di aggiornamento dei dati nel livello di entità/tabella per misurare il contratto di servizio di aggiornamento dei dati.
    • Pianificazione del processo di analisi della qualità dei dati per il periodo di tempo (orario, giornaliero, settimanale, mensile e così via)
  • Monitoraggio dei processi di qualità dei dati
    • Abilitare lo stato del processo di monitoraggio della qualità dei dati (attivo, completato, non riuscito e così via)
    • Abilitare l'esplorazione della cronologia di analisi DQ.
  • Punteggio di qualità dei dati
    • Punteggio di qualità dei dati a livello di regola (qual è il punteggio di qualità per una regola applicata a una colonna)
    • Punteggio di qualità dei dati per asset di dati, prodotti dati e domini di governance (un dominio di governance può avere molti prodotti dati, un prodotto dati può avere molti asset di dati, un asset di dati può avere molte colonne di dati)
  • Qualità dei dati per gli elementi di dati critici (CDE)
    • Si tratta di una delle funzionalità principali della qualità dei dati, ovvero la possibilità di applicare regole di qualità dei dati al costrutto logico dei CDE, che quindi si propagano fino agli elementi dati fisici che li comprendono. Definendo regole di qualità dei dati a livello di CDE, le organizzazioni possono stabilire criteri e soglie specifici che le cde devono soddisfare per mantenere la qualità
  • Avvisi sulla qualità dei dati
    • Configurare gli avvisi per notificare ai proprietari dei dati, agli amministratori dei dati se la soglia di qualità dei dati non è stata prevista.
    • configurare l'alias di posta elettronica o il gruppo di distribuzione per inviare la notifica sui problemi di qualità dei dati.
  • Azioni di qualità dei dati
    • Centro azioni per DQ con azioni per risolvere gli stati di anomalia DQ, incluse le query di diagnostica per l'amministratore DQ a zero nei dati specifici da correggere per ogni stato di anomalia.
  • Rete virtuale gestita con qualità dei dati
    • Una rete virtuale gestita dalla qualità dei dati che si connette con endpoint privati alle origini dati di Azure.

Residenza e crittografia dei dati

I metadati di qualità dei dati e il riepilogo della profilatura vengono archiviati nell'account di archiviazione gestita Microsoft. Vengono archiviati nella stessa area dell'origine dati, quindi la residenza dei dati rimane intatta. Tutti i dati sono crittografati. Si sta sfruttando l'archivio dati degli utenti a livello di area del provider di risorse Microsoft Purview per i metadati, che gestisce tutta la crittografia ed è comune in tutti i servizi Microsoft Purview. Se si vuole un maggiore controllo sulla crittografia dei dati con una chiave di crittografia gestita dal cliente, è disponibile un processo separato. Altre informazioni sulla chiave del cliente di Microsoft Purview.

Prezzi di calcolo della qualità dei dati

L'utilizzo della qualità dei dati viene fatturato in base ai contatori con pagamento in base al consumo di Data Governance Processing Unit (DGPU). Una DGPU è la quantità di prestazioni del servizio utilizzata per 60 minuti ed è disponibile in tre diverse opzioni di prestazioni: basic, standard e advanced. L'opzione SKU di base viene impostata come opzione di prestazioni predefinita fino a quando non viene selezionata un'opzione superiore. Ad esempio, se un cliente esegue 100 regole di qualità dei dati in un solo giorno e ogni esecuzione produce 0,02 DGPU con lo SKU Basic, la DGPU totale per quel giorno sarà uguale a due DGPU, con un costo di $30 per il cliente. Il prezzo dello SKU di base è di 15 dollari per unità di elaborazione, Standard prezzo dello SKU è di 60 dollari per unità di elaborazione e il prezzo dello SKU anticipato è di 240 dollari per unità di elaborazione. Altre informazioni sui prezzi Microsoft Purview Unified Catalog.

Di seguito è riportato un esempio di unità di elaborazione utilizzate per regole di base o complesse per volumi di dati diversi, testate per uno SKU standard.

Complessità delle regole 10.000 record - 100.000 record - 1.000.000 record - 10.000.000 record - 100.000.000 record - 1.000.000.000 di record -
Durata PU Durata PU Durata PU Durata PU Durata PU Durata PU
Semplice Tempo trascorso: 1m 1s 0.02 Tempo trascorso: 1m 1s 0.02 Tempo trascorso: 1m 1s 0.02 Tempo trascorso: 1m 16s 0.02 Tempo trascorso: 1m 16s 0.02 Tempo trascorso: 1m 31s 0.03
Medio Tempo trascorso: 1m 1s 0.02 Tempo trascorso: 1m 1s 0.02 Tempo trascorso: 1m 1s 0.02 Tempo trascorso: 1m 16s 0.02 Tempo trascorso: 1m 31s 0.03 Tempo trascorso: 2m 1s 0.03
Fortemente Tempo trascorso: 1m 1s 0.02 Tempo trascorso: 1m 1s 0.02 Tempo trascorso: 1m 31s 0.03 Tempo trascorso: 1m 32s 0.03 Tempo trascorso: 2m 1s 0.03 Tempo trascorso: 2m 51s 0.04

Limitazione

  • La rete virtuale non è supportata per Google Big Query, Snowflake e Azure Databricks Unity Catalog.

Passaggi successivi

  1. Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati in Unified Catalog per usare tutte le funzionalità di qualità dei dati.
  2. Configurare una connessione all'origine dati per preparare l'origine per la valutazione della qualità dei dati.
  3. Configurare ed eseguire la profilatura dei dati per un asset nell'origine dati.