Configurare ed eseguire la profilatura dei dati per un asset di dati

Articolo
02/26/2025

La profilatura dei dati è il processo di esame dei dati disponibili in origini dati diverse e di raccolta di statistiche e informazioni su questi dati. La profilatura dei dati consente di valutare il livello di qualità dei dati in base a un set definito di obiettivi. Se i dati sono di scarsa qualità o gestiti in strutture che non possono essere integrate per soddisfare le esigenze dell'azienda, i processi aziendali e il processo decisionale soffrono. La profilatura dei dati consente di comprendere l'affidabilità e la qualità dei dati, che è un prerequisito per prendere decisioni basate sui dati che migliorano i ricavi e favoriscono la crescita.

Prerequisiti

Per eseguire e pianificare analisi di valutazione della qualità dei dati, gli utenti devono avere il ruolo di amministratore della qualità dei dati.
Attualmente, l'account Microsoft Purview può essere impostato per consentire l'accesso pubblico o la rete virtuale gestita in modo da poter eseguire analisi della qualità dei dati.

Ciclo di vita della qualità dei dati

La profilatura dei dati è il quinto passaggio del ciclo di vita della qualità dei dati per un asset di dati. I passaggi precedenti sono:

Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati in Unified Catalog per usare tutte le funzionalità di qualità dei dati.
Registrare ed analizzare un'origine dati nel Microsoft Purview Data Map.
Aggiungere l'asset di dati a un prodotto dati
Configurare una connessione all'origine dati per preparare l'origine per la valutazione della qualità dei dati.

Origini dati multicloud supportate

Azure Data Lake Storage (ADLS Gen2)
- Tipi di file: Delta Parquet e Parquet
database SQL di Azure
Il data estate di Fabric in OneLake include il collegamento e il mirroring dei dati. La profilatura dei dati è supportata solo per le tabelle delta di Lakehouse e i file Parquet.
- Data estate di mirroring: Cosmos DB, Snowflake, Azure SQL
- Data estate di collegamento: AWS S3, GCS, AdlsG2 e Dataverse
Azure Synapse serverless e data warehouse
Catalogo Unity Azure Databricks
Fiocco di neve
Google Big Query (anteprima)
Dati iceberg in ADLS Gen2, Microsoft Fabric Lakehouse, AWS S3 e GCP GCS

Importante

La qualità dei dati per il file Parquet è progettata per supportare:

Directory con il file di parte Parquet. Ad esempio: ./Sales/{Parquet Part Files}. Il nome completo deve seguire https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Assicurarsi di non avere {n} modelli nella struttura di directory/sottodirectory; deve essere un FQN diretto che porta a {SparkPartitions}.
Directory con file Parquet partizionati, partizionata in base alle colonne all'interno del set di dati, ad esempio i dati di vendita partizionati per anno e mese. Ad esempio: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Sono supportati entrambi questi scenari essenziali, che presentano uno schema coerente del set di dati Parquet. Limitazione: Non è progettato per o non supporta N gerarchie arbitrarie di directory con file Parquet. È consigliabile presentare i dati nella struttura costruita (1) o (2).

Metodi di autenticazione supportati

Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi data quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4. Per altre informazioni sulle aree supportate, vedere Panoramica della qualità dei dati.

Importante

Se lo schema viene aggiornato nell'origine dati, è necessario eseguire di nuovo l'analisi della mappa dati prima di eseguire una profilatura dei dati. È possibile importare lo schema dalla pagina di panoramica della qualità dei dati usando la funzionalità di importazione dello schema. Se l'origine dati è in esecuzione nella rete virtuale gestita o nell'endpoint privato, la funzionalità di importazione dello schema non è supportata.
La rete virtuale non è supportata per Azure Databricks, Google BigQuery e Snowflake.
Nella versione corrente è possibile profilare 50 colonne per batch. Se l'asset di dati include più di 50 colonne, è possibile profilare colonne aggiuntive in più batch.
Se una colonna contiene un valore distinto, è consigliabile non profilare tale colonna. Una colonna con valori distinti non è in grado di creare una distribuzione normale.

Passaggi per configurare il processo di profilatura dei dati

Configurare una connessione all'origine dati agli asset che si sta analizzando per verificare la qualità dei dati, se non è stato fatto.
In Microsoft Purview Unified Catalog selezionare Gestione integrità e quindi Qualità dati.
Selezionare un dominio di governance dall'elenco.
Selezionare un prodotto dati per profilare un asset di dati collegato a tale prodotto.
Selezionare un asset di dati per passare alla pagina Panoramica della qualità dei dati per la profilatura.
Selezionare il pulsante Profilo per eseguire il processo di profilatura per l'asset di dati selezionato.
Il motore di raccomandazione per l'intelligenza artificiale suggerisce colonne potenzialmente importanti su cui eseguire la profilatura dei dati. È possibile deselezionare le colonne consigliate e/o selezionare altre colonne da profilare.
Dopo aver selezionato le colonne pertinenti, selezionare Esegui profilo.
Mentre il processo è in esecuzione, è possibile monitorarne lo stato dalla pagina di monitoraggio della qualità dei dati nel dominio di governance.
Al termine del processo, selezionare la scheda Profilo dal menu a sinistra della pagina della qualità dei dati dell'asset per visualizzare l'elenco dei risultati della profilatura e dello snapshot statistico. Potrebbero essere presenti diverse pagine dei risultati del profilo a seconda di quante colonne hanno gli asset di dati.There could be several profile result pages depending on how many columns your data assets have.
Esplorare i risultati della profilatura e le misure statistiche per ogni colonna.

Passaggi successivi

Configurare le regole di qualità dei dati in base ai risultati della profilatura e applicarle all'asset di dati.
Configurare ed eseguire un'analisi della qualità dei dati in un prodotto dati per valutare la qualità di tutti gli asset supportati nel prodotto dati.
Esaminare i risultati dell'analisi per valutare la qualità dei dati corrente del prodotto dati.

Condividi tramite

Configurare ed eseguire la profilatura dei dati per un asset di dati

Prerequisiti

Ciclo di vita della qualità dei dati

Origini dati multicloud supportate

Metodi di autenticazione supportati

Passaggi per configurare il processo di profilatura dei dati

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Configurare ed eseguire la profilatura dei dati per un asset di dati

Prerequisiti

Ciclo di vita della qualità dei dati

Origini dati multicloud supportate

Metodi di autenticazione supportati

Passaggi per configurare il processo di profilatura dei dati

Contenuto correlato

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive