Configurare ed eseguire la profilatura dei dati per un asset di dati
La profilatura dei dati è il processo di esame dei dati disponibili in origini dati diverse e di raccolta di statistiche e informazioni su questi dati. La profilatura dei dati consente di valutare il livello di qualità dei dati in base a un set definito di obiettivi. Se i dati sono di scarsa qualità o gestiti in strutture che non possono essere integrate per soddisfare le esigenze dell'azienda, i processi aziendali e il processo decisionale soffrono. La profilatura dei dati consente di comprendere l'affidabilità e la qualità dei dati, che è un prerequisito per prendere decisioni basate sui dati che migliorano i ricavi e favoriscono la crescita.
Prerequisiti
- Per eseguire e pianificare analisi di valutazione della qualità dei dati, gli utenti devono avere il ruolo di amministratore della qualità dei dati.
- Attualmente, l'account Microsoft Purview può essere impostato per consentire l'accesso pubblico o la rete virtuale gestita in modo da poter eseguire analisi della qualità dei dati.
Ciclo di vita della qualità dei dati
La profilatura dei dati è il quinto passaggio del ciclo di vita della qualità dei dati per un asset di dati. I passaggi precedenti sono:
- Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati in Unified Catalog per usare tutte le funzionalità di qualità dei dati.
- Registrare ed analizzare un'origine dati nel Microsoft Purview Data Map.
- Aggiungere l'asset di dati a un prodotto dati
- Configurare una connessione all'origine dati per preparare l'origine per la valutazione della qualità dei dati.
Origini dati multicloud supportate
- Azure Data Lake Storage (ADLS Gen2)
- Tipi di file: Delta Parquet e Parquet
- database SQL di Azure
- Il data estate di Fabric in OneLake include il collegamento e il mirroring dei dati. La profilatura dei dati è supportata solo per le tabelle delta di Lakehouse e i file Parquet.
- Data estate di mirroring: Cosmos DB, Snowflake, Azure SQL
- Data estate di collegamento: AWS S3, GCS, AdlsG2 e Dataverse
- Azure Synapse serverless e data warehouse
- Catalogo Unity Azure Databricks
- Fiocco di neve
- Google Big Query (anteprima)
- Dati iceberg in ADLS Gen2, Microsoft Fabric Lakehouse, AWS S3 e GCP GCS
Importante
La qualità dei dati per il file Parquet è progettata per supportare:
- Directory con il file di parte Parquet. Ad esempio: ./Sales/{Parquet Part Files}. Il nome completo deve seguire
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Assicurarsi di non avere {n} modelli nella struttura di directory/sottodirectory; deve essere un FQN diretto che porta a {SparkPartitions}. - Directory con file Parquet partizionati, partizionata in base alle colonne all'interno del set di dati, ad esempio i dati di vendita partizionati per anno e mese. Ad esempio: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Sono supportati entrambi questi scenari essenziali, che presentano uno schema coerente del set di dati Parquet. Limitazione: Non è progettato per o non supporta N gerarchie arbitrarie di directory con file Parquet. È consigliabile presentare i dati nella struttura costruita (1) o (2).
Metodi di autenticazione supportati
Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi data quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4. Per altre informazioni sulle aree supportate, vedere Panoramica della qualità dei dati.
Importante
- Se lo schema viene aggiornato nell'origine dati, è necessario eseguire di nuovo l'analisi della mappa dati prima di eseguire una profilatura dei dati. È possibile importare lo schema dalla pagina di panoramica della qualità dei dati usando la funzionalità di importazione dello schema. Se l'origine dati è in esecuzione nella rete virtuale gestita o nell'endpoint privato, la funzionalità di importazione dello schema non è supportata.
- La rete virtuale non è supportata per Azure Databricks, Google BigQuery e Snowflake.
- Nella versione corrente è possibile profilare 50 colonne per batch. Se l'asset di dati include più di 50 colonne, è possibile profilare colonne aggiuntive in più batch.
- Se una colonna contiene un valore distinto, è consigliabile non profilare tale colonna. Una colonna con valori distinti non è in grado di creare una distribuzione normale.
Passaggi per configurare il processo di profilatura dei dati
Configurare una connessione all'origine dati all'asset se non ne è già stata creata una.
In Microsoft Purview Unified Catalog selezionare il menu Gestione integrità e il sottomenu Data quality .from Microsoft Purview Unified Catalog, select the Health Management menu and Data quality submenu.
Nel sottomenu Data Quality (Qualità dei dati) selezionare il dominio Governance per la profilatura dei dati.
Selezionare un prodotto dati per profilare un asset di dati collegato a tale prodotto.
Selezionare un asset di dati per passare alla pagina Panoramica della qualità dei dati per la profilatura.
Selezionare il pulsante Profilo per eseguire il processo di profilatura per l'asset di dati selezionato.
Il motore di raccomandazione per l'intelligenza artificiale suggerisce colonne potenzialmente importanti su cui eseguire la profilatura dei dati. È possibile deselezionare le colonne consigliate e/o selezionare altre colonne da profilare.
Dopo aver selezionato le colonne pertinenti, selezionare Esegui profilo.
Mentre il processo è in esecuzione, è possibile monitorarne lo stato dalla pagina di monitoraggio della qualità dei dati nel dominio di governance.
Al termine del processo, selezionare la scheda Profilo dal menu a sinistra della pagina della qualità dei dati dell'asset per visualizzare l'elenco dei risultati della profilatura e dello snapshot statistico. Potrebbero essere presenti diverse pagine dei risultati del profilo a seconda di quante colonne hanno gli asset di dati.There could be several profile result pages depending on how many columns your data assets have.
Esplorare i risultati della profilatura e le misure statistiche per ogni colonna.
Importante
Il formato delta viene principalmente rilevato automaticamente se il formato è standard e corretto nei sistemi di origine. Per profilare il formato di file Parquet o iceberg, è necessario modificare il tipo di asset di dati in Parquet o iceberg. Come illustrato nello screenshot seguente, modificare il tipo di asset di dati predefinito Parquet o un altro formato supportato se il formato del file dell'asset di dati non è differenziale. Questa modifica deve essere eseguita prima di configurare il processo di profilatura.
Contenuto correlato
- Qualità dei dati per fabric data estate
- Qualità dei dati per le origini dati con mirroring di Fabric
- Qualità dei dati per le origini dati di collegamento a Fabric
- Qualità dei dati per Azure Synapse serverless e data warehouse
- Qualità dei dati per il catalogo Unity di Azure Databricks
- Qualità dei dati per le origini dati Snowflake
- Qualità dei dati per Google Big Query
Passaggi successivi
- Configurare le regole di qualità dei dati in base ai risultati della profilatura e applicarle all'asset di dati.
- Configurare ed eseguire un'analisi della qualità dei dati in un prodotto dati per valutare la qualità di tutti gli asset supportati nel prodotto dati.
- Esaminare i risultati dell'analisi per valutare la qualità dei dati corrente del prodotto dati.