Derivazione dei dati in Microsoft Purview
Questo articolo offre una panoramica della derivazione dei dati nel Microsoft Purview Unified Catalog. Descrive anche in che modo i sistemi dati possono integrarsi con il catalogo per acquisire la derivazione dei dati. Microsoft Purview può acquisire la derivazione dei dati in diverse parti del patrimonio dati dell'organizzazione e a diversi livelli di preparazione, tra cui:
- Dati non elaborati in fasi da varie piattaforme
- Dati trasformati e preparati
- Dati usati dalle piattaforme di visualizzazione
Situazioni di utilizzo
La derivazione dei dati è ampiamente intesa come il ciclo di vita che si estende sull'origine dei dati e sulla posizione in cui si sposta nel tempo nell'area dati. Viene usato per diversi tipi di scenari dall'aspetto indietro, ad esempio la risoluzione dei problemi, la traccia della causa radice nelle pipeline di dati e il debug. La derivazione viene usata anche per l'analisi della qualità dei dati, la conformità e gli scenari "what if" spesso definiti analisi di impatto. La derivazione viene rappresentata visivamente per mostrare i dati che passano dall'origine alla destinazione, incluso il modo in cui i dati sono stati trasformati. Data la complessità della maggior parte degli ambienti dati aziendali, queste visualizzazioni possono essere difficili da comprendere senza eseguire un consolidamento o una maschera dei punti dati periferici.
Esperienza di derivazione in Unified Catalog
Unified Catalog si connette ad altri sistemi di elaborazione dati, archiviazione e analisi per estrarre informazioni sulla derivazione. Le informazioni vengono combinate per rappresentare un'esperienza di derivazione generica e specifica dello scenario nel catalogo.
Il data estate può includere sistemi che eseguono l'estrazione, la trasformazione dei dati (sistemi ETL/ELT), i sistemi di analisi e visualizzazione. Ognuno dei sistemi acquisisce metadati statici e operativi avanzati che descrivono lo stato e la qualità dei dati all'interno del limite dei sistemi. L'obiettivo della derivazione in un Unified Catalog è estrarre lo spostamento, la trasformazione e i metadati operativi da ogni sistema di dati alla granularità più bassa possibile.
L'esempio seguente è un tipico caso d'uso di dati che si spostano tra più sistemi, in cui Unified Catalog si connetterebbero a ognuno dei sistemi per la derivazione.
- Data Factory copia i dati dalla zona locale/non elaborata a una zona di destinazione nel cloud.
- I sistemi di elaborazione dati come Synapse e Databricks elaborano e trasformano i dati dalla zona di destinazione alla zona curata usando notebook.
- Ulteriore elaborazione dei dati in modelli analitici per ottimizzare le prestazioni e l'aggregazione delle query.
- I sistemi di visualizzazione dei dati utilizzeranno i set di dati ed eseguono il loro metamodelli per creare un dashboard bi, esperimenti di machine learning e così via.
Granularità di derivazione
La sezione seguente illustra i dettagli sulla granularità di cui vengono raccolte le informazioni di derivazione da Microsoft Purview. Questa granularità può variare in base ai sistemi dati supportati in Microsoft Purview.
Derivazione a livello di entità: destinazioni del processo > delle origini >
- La derivazione è rappresentata come grafo, in genere contiene entità di origine e di destinazione nei sistemi di archiviazione dati connessi da un processo richiamato da un sistema di calcolo.
- I sistemi dati si connettono a Unified Catalog per generare e segnalare un oggetto univoco che fa riferimento all'oggetto fisico del sistema dati sottostante, ad esempio: stored procedure SQL, notebook e così via.
- La derivazione ad alta fedeltà con altri metadati come la proprietà viene acquisita per mostrare la derivazione in un formato leggibile per le entità di origine & di destinazione. ad esempio: derivazione a livello di tabella hive anziché partizioni o livello di file.
Derivazione a livello di colonna o di attributo
Identificare gli attributi di un'entità di origine usata per creare o derivare attributi nell'entità di destinazione. Il nome dell'attributo di origine può essere mantenuto o rinominato in una destinazione. Sistemi come Azure Data Factory (ADF) possono eseguire una copia singola dall'ambiente locale al cloud. Ad esempio: Table1/ColumnA -> Table2/ColumnA
.
Stato di esecuzione del processo
Per supportare l'analisi della causa radice e gli scenari di qualità dei dati, viene acquisito lo stato di esecuzione dei processi nei sistemi di elaborazione dati. Questo requisito non ha nulla a che fare con la sostituzione delle funzionalità di monitoraggio di altri sistemi di elaborazione dati, né l'obiettivo è quello di sostituirli.
Riepilogo
La derivazione è una funzionalità fondamentale di Unified Catalog per supportare scenari di qualità, attendibilità e controllo. L'obiettivo di un Unified Catalog è creare un framework affidabile in cui tutti i sistemi dati all'interno dell'ambiente possano connettersi e segnalare la derivazione. Una volta disponibili i metadati, Unified Catalog possono riunire i metadati forniti dai sistemi dati per alimentare i casi d'uso di governance dei dati.