Configurare ed eseguire l'analisi della qualità dei dati
Le analisi della qualità dei dati esaminano gli asset di dati in base alle regole di qualità dei dati applicate e producono un punteggio. Gli amministratori dei dati possono usare tale punteggio per valutare l'integrità dei dati e risolvere eventuali problemi che potrebbero ridurre la qualità dei dati.
Prerequisiti
- Per eseguire e pianificare analisi di valutazione della qualità dei dati, gli utenti devono avere il ruolo di amministratore della qualità dei dati.
- Attualmente, l'account Microsoft Purview può essere impostato per consentire l'accesso pubblico o la rete virtuale gestita in modo che possano essere eseguite analisi della qualità dei dati.
Ciclo di vita della qualità dei dati
L'analisi della qualità dei dati è il settimo passaggio del ciclo di vita della qualità dei dati per un asset di dati. I passaggi precedenti sono:
- Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati in Unified Catalog per usare tutte le funzionalità di qualità dei dati.
- Registrare ed analizzare un'origine dati nel Microsoft Purview Data Map.
- Aggiungere l'asset di dati a un prodotto dati
- Configurare una connessione all'origine dati per preparare l'origine per la valutazione della qualità dei dati.
-
Configurare ed eseguire la profilatura dei dati per un asset nell'origine dati.
- Al termine della profilatura, esplorare i risultati di ogni colonna nell'asset di dati per comprendere la struttura e lo stato correnti dei dati.
- Configurare le regole di qualità dei dati in base ai risultati della profilatura e applicarle all'asset di dati.
Origini dati multi-cloud supportate
- Azure Data Lake Storage (ADLS Gen2)
- Tipi di file: Delta Parquet e Parquet
- database SQL di Azure
- Il data estate di Fabric in OneLake include il collegamento e il mirroring dei dati. L'analisi della qualità dei dati è supportata solo per le tabelle delta di Lakehouse e i file Parquet.
- Data estate di mirroring: CosmosDB, Snowflake, Azure SQL
- Data estate di collegamento: AWS S3, GCS, AdlsG2 e Dataverse
- Azure Synapse serverless e data warehouse
- Catalogo Unity Azure Databricks
- Fiocco di neve
- Google Big Query (anteprima)
- Dati iceberg in ADLS Gen2, Microsoft Fabric Lakehouse, AWS S3 e GCP GCS
Importante
La qualità dei dati per il file Parquet è progettata per supportare:
- Directory con il file di parte Parquet. Ad esempio: ./Sales/{Parquet Part Files}. Il nome completo deve seguire
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Assicurarsi di non avere {n} modelli nella struttura di directory/sottodirectory, ma deve essere un FQN diretto che porta a {SparkPartitions}. - Directory con file Parquet partizionati, partizionata in base alle colonne all'interno del set di dati, ad esempio i dati di vendita partizionati per anno e mese. ad esempio: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Sono supportati entrambi questi scenari essenziali, che presentano uno schema di set di dati Parquet coerente. Limitazione: Non è progettato per o non supporta N gerarchie arbitrarie di directory con file Parquet. È consigliabile presentare i dati nella struttura costruita (1) o (2).
Metodi di autenticazione supportati
Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi data quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4. Per altre informazioni sulle aree supportate, vedere Panoramica della qualità dei dati.
Importante
- Se lo schema viene aggiornato nell'origine dati, è necessario eseguire nuovamente l'analisi della mappa dati prima di eseguire un'analisi della qualità dei dati. È anche possibile usare la funzionalità di importazione dello schema dalla pagina Panoramica della qualità dei dati.
- L'importazione dello schema non è supportata per le origini dati in esecuzione nella rete virtuale gestita o nell'endpoint privato.
- La rete virtuale non è supportata per Azure Databricks, Google BigQuery e Snowflake
Eseguire un'analisi della qualità dei dati
Da Microsoft Purview Unified Catalog selezionare Il menu Gestione integrità e il sottomenu Qualità dati.
Selezionare un dominio di governance dall'elenco.
Selezionare un prodotto dati per valutare la qualità dei dati degli asset di dati collegati a tale prodotto.
Selezionando il prodotto dati si passa alla pagina Panoramica della qualità dei dati. È possibile esplorare le regole di qualità dei dati esistenti e aggiungere nuove regole selezionando il menu Regole in questa pagina. È possibile esplorare lo schema dell'asset di dati selezionando il menu Schema da questa pagina.
Esplorare le regole già aggiunte all'analisi per individuare gli asset selezionati e attivarli o disattivarli nella colonna Stato .
Eseguire l'analisi della qualità selezionando il pulsante Esegui analisi qualità nella pagina di panoramica.
Mentre l'analisi è in esecuzione, è possibile monitorarne lo stato dalla pagina di monitoraggio della qualità dei dati nel dominio di governance.
Pianificare analisi della qualità dei dati
Anche se le analisi della qualità dei dati possono essere eseguite ad hoc selezionando il pulsante Esegui analisi qualità , negli scenari di produzione è probabile che i dati di origine vengano costantemente aggiornati e, pertanto, si vuole assicurarsi di monitorarne regolarmente la qualità per rilevare eventuali problemi. Per consentirci di gestire analisi di qualità ad aggiornamento regolare, è possibile automatizzare il processo di analisi.
Da Microsoft Purview Unified Catalog selezionare Il menu Gestione integrità e il sottomenu Qualità dati.
Selezionare un dominio di governance dall'elenco.
Selezionare il pulsante Gestisci dal lato destro della pagina e selezionare Scansioni pianificate.
Compilare il modulo nella pagina Crea analisi pianificata . Aggiungere un nome e una descrizione per l'origine che si sta configurando la pianificazione.
Selezionare Continua.
Nella scheda Ambito selezionare singoli prodotti dati e asset o tutti i prodotti dati e gli asset di dati dell'intero dominio di governance.
Selezionare Continua.
Impostare una pianificazione in base alle preferenze e selezionare Continua.
Nella scheda Revisione selezionare Salva (o Salva ed esegui per testare immediatamente) per completare la pianificazione dell'analisi di valutazione della qualità dei dati.
È possibile monitorare le analisi pianificate nella pagina di monitoraggio del processo di qualità dei dati nella scheda Scansioni .
Eliminare le analisi e la cronologia della qualità dei dati precedenti
Quando si rimuove un asset di dati da un prodotto dati, se tale asset di dati ha un punteggio di qualità dei dati, sarà prima necessario eliminare il punteggio di qualità dei dati, quindi rimuovere l'asset di dati dal prodotto dati.
Quando si eliminano i dati della cronologia della qualità dei dati, vengono rimossi la cronologia del profilo, la cronologia di analisi della qualità dei dati e le regole di qualità dei dati, ma le azioni di qualità dei dati non verranno eliminate.
Seguire la procedura seguente per eliminare le analisi della qualità dei dati precedenti:
- Da Microsoft Purview Unified Catalog selezionare Il menu Gestione integrità e il sottomenu Qualità dati.
- Selezionare un dominio di governance dall'elenco.
- Selezionare i puntini di sospensione (...) in alto a destra nella pagina.
- Selezionare Elimina dati di qualità dei dati per eliminare la cronologia delle esecuzioni di qualità dei dati.
Nota
- È consigliabile usare solo Elimina dati di qualità dei dati per le esecuzioni di test, le esecuzioni di qualità dei dati con errori o se si rimuove un asset di dati da un prodotto dati.
- Vengono archiviati fino a 50 snapshot della profilatura della qualità dei dati e della cronologia di valutazione della qualità dei dati. Se si vuole eliminare uno snapshot specifico, selezionare l'esecuzione della cronologia desiderata e selezionare l'icona di eliminazione.
Importante
Il formato delta viene principalmente rilevato automaticamente se il formato è standard e corretto nei sistemi di origine. Per analizzare il formato di file Parquet o iceberg per l'assegnazione dei punteggi di qualità dei dati, è necessario modificare il tipo di asset di dati in Parquet o Iceberg. Come illustrato nello screenshot seguente, modificare il tipo di asset di dati predefinito *Parquet o un altro formato supportato se il formato del file dell'asset di dati non è differenziale. Questa modifica deve essere eseguita prima di configurare il processo di analisi della qualità dei dati.
Contenuto correlato
- Qualità dei dati per fabric data estate
- Qualità dei dati per le origini dati con mirroring di Fabric
- Qualità dei dati per le origini dati di collegamento a Fabric
- Qualità dei dati per Azure Synapse serverless e data warehouse
- Qualità dei dati per il catalogo Unity di Azure Databricks
- Qualità dei dati per le origini dati Snowflake
- Qualità dei dati per Google Big Query
Passaggi successivi
- Monitorare l'analisi della qualità dei dati
- Esaminare i risultati dell'analisi per valutare la qualità dei dati corrente del prodotto dati.
- Configurare gli avvisi per i risultati dell'analisi della qualità dei dati