Che cos'è un prodotto dati?
Ogni applicazione crea e archivia i dati temporaneamente o definitivamente. Molte applicazioni creano e salvano anche i dati a scopo di gestione operativa, ad esempio la registrazione degli errori e il monitoraggio dell'integrità. Per utilizzare ed elaborare i dati prodotti da queste applicazioni, i team di dati centralizzati usano processi di estrazione, trasformazione e caricamento (ETL). I team operativi delle applicazioni hanno spesso altri flussi di elaborazione per dati come la salute dell'applicazione e il monitoraggio dello stato dei KPI.
Per l'integrazione dei dati, un approccio a cascata tradizionale, in cui i team seguono un ordine specifico di fasi, non è ideale. Può causare lacune nelle conoscenze, problemi di proprietà e conflitti di comunicazione che influiscono sulla qualità, la tempestività e il valore dei dati per gli utenti. I team delle applicazioni sono responsabili delle prestazioni e del successo delle applicazioni. Quando usano un approccio a cascata, apportano modifiche ai processi a valle gestiti da altri team. In alcuni casi queste modifiche possono influire su altre aree. Ad esempio, una piccola modifica upstream potrebbe modificare drasticamente la tendenza di un indicatore KPI. Questi conflitti possono influire sulla capacità di prendere decisioni critiche.
Dati come prodotto
Per evitare questi problemi, l'approccio mesh di dati
I prodotti dati vengono creati specificamente per il consumo analitico. Hanno definito e concordato forme, interfacce di consumo e cicli di manutenzione e aggiornamento, tutti documentati.
I prodotti dati sono asset di dati di dominio elaborati o set di dati che puoi condividere con processi a valle tramite interfacce in base a un obiettivo di livello di servizio. Se non diversamente richiesto, è necessario elaborare, modellare, pulire, aggregare e normalizzare i dati non elaborati in modo da soddisfare gli standard di qualità concordati prima di renderli disponibili per l'uso.
Le sezioni seguenti illustrano le caratteristiche comuni dei prodotti di dati validi.
Caratteristiche dei prodotti di dati
Assicurati che i prodotti di dati siano:
Rintracciabile, comprensibile e affidabile. Per fornire individuabilità e chiarezza, condividere e aggiornare informazioni su ogni prodotto di dati, i dati correlati, il loro significato, il formato dei dati e il ciclo di aggiornamento. Comunicare le modifiche ai dati o le modifiche della struttura agli utenti downstream in modo tempestivo. Per garantire affidabilità, le interfacce offrono retrocompatibilità con limiti di tempo per le strutture dei prodotti di dati.
Indirizzabile, accessibile in modo nativo e sicuro. Per garantire la indirizzabilità, creare processi definiti per individuare e ottenere l'accesso a ogni prodotto dati. Implementare misure di sicurezza per diversi requisiti di accesso. Sposta la tua mentalità di proprietà del dominio dei dati dal custodire i dati al servire i dati con precauzioni di sicurezza ben definite. Le interfacce di accesso ben documentate possono variare in diverse tecnologie. Le interfacce comunemente usate per i prodotti dati accessibili in modo nativo includono API, utenti di database, tabelle o viste e file con diritti di accesso necessari.
Interoperabili, veritieri e preziosi. Per garantire l'interoperabilità, assicurarsi che i dati seguano standard comuni definiti, ad esempio valori con lo stesso nome e tipo di dati. Ad esempio, è possibile assegnare un nome a una colonna contenente i dati di identificazione dei clienti CustomerID in ogni prodotto dati e i relativi dati potrebbero essere sempre un numero intero. I prodotti dati offrono valore ai clienti ed è possibile usarli come origini upstream per i nuovi prodotti dati nello stesso dominio o domini diversi. Non puoi semplicemente trasportare e copiare lo stesso prodotto di dati in più posizioni. Ogni prodotto di dati proveniente da un prodotto di dati precedente deve fornire nuovi valori e informazioni ai consumer downstream. I prodotti dati devono anche fornire dati accurati e veritieri.
Usare prodotti dati ben progettati e ben gestiti e le relative interfacce per evitare la duplicazione dei dati e creare una singola origine nativa di verità.
Raccomandazioni per la progettazione dei prodotti dati
Per soddisfare i requisiti di gestione dei prodotti dati, i team di dominio devono acquisire un nuovo set di competenze e usare nuovi strumenti e piattaforme.
Per costruire le applicazioni dati e produrre o distribuire prodotti dati, dotare completamente i team delle applicazioni di dominio. I team possono usare uno stack di tecnologie familiare per creare prodotti basati sui dati. Potrebbero anche preferire un'istanza Spark o un motore per la pipeline. Ad esempio, un dominio di grandi dimensioni che serve molti prodotti dati potrebbe elaborare e gestire prodotti dati dalla propria istanza di Azure Synapse Analytics. Le organizzazioni più piccole e i domini più piccoli di organizzazioni di grandi dimensioni possono sviluppare ed eseguire le applicazioni dati in una piattaforma condivisa, ad esempio un'istanza di Azure Data Factory situata centralmente, Azure Synapse Analytics o Azure Databricks.
Assicurati che i prodotti di dati abbiano le caratteristiche comuni descritte in questo articolo, che il repository di linea di derivazione rifletta la linea di derivazione dell'applicazione dati e che tu gestisca l'implementazione e l'accesso.
Il diagramma seguente mostra un esempio di layout logico dell'applicazione dati in un dominio e in una zona di atterraggio.