Esplorare gli archivi dati analitici
Esistono due tipi comuni di archivio dati analitici.
Data warehouse
Un data warehouse è un database relazionale in cui i dati vengono archiviati in uno schema ottimizzato per l'analisi dei dati anziché i carichi di lavoro transazionali. In genere, i dati di un archivio transazionale vengono trasformati in uno schema in cui i valori numerici vengono archiviati in tabelle dei fatti centrali, correlate a una o più tabelle delle dimensioni che rappresentano entità in base a cui è possibile aggregare i dati. Ad esempio, una tabella dei fatti può contenere dati sugli ordini di vendita, che si possono aggregare in base alle dimensioni cliente, prodotto, archivio e tempo (consentendo ad esempio di trovare facilmente i ricavi totali mensili delle vendite per prodotto per ogni negozio). Questo tipo di schema di tabella dei fatti e delle dimensioni è chiamato schema star, anche se spesso viene esteso in uno schema snowflake aggiungendo tabelle aggiuntive correlate alle tabelle delle dimensioni per rappresentare gerarchie dimensionali (ad esempio, il prodotto potrebbe essere correlato alle categorie di prodotti). Un data warehouse è una scelta ottimale quando si hanno dati transazionali che possono essere organizzati in uno schema strutturato di tabelle e si vuole usare SQL per eseguire query.
Archivi data lake
Un data lake è un archivio file, in genere in un file system distribuito per l'accesso ai dati ad alte prestazioni. Le tecnologie come Spark o Hadoop vengono spesso usate per elaborare query sui file archiviati e restituire i dati per la creazione di report e l'analisi. Questi sistemi applicano spesso un approccio di tipo schema in lettura per definire schemi tabulari nei file di dati semistrutturati nel punto in cui i dati vengono letti per l'analisi, senza applicare vincoli quando vengono archiviati. I data lake sono ideali per supportare una combinazione di dati strutturati, semistrutturati e persino non strutturati da analizzare senza la necessità di applicare lo schema quando i dati vengono scritti nell'archivio.
Approcci ibridi
È possibile usare un approccio ibrido che combina le funzionalità di data lake e data warehouse in un data lakehouse. I dati non elaborati vengono archiviati come file in un data lake e gli endpoint di analisi SQL di Microsoft Fabric li espongono come tabelle, che possono essere sottoposte a query tramite SQL. Quando si crea un lakehouse con Microsoft Fabric, viene creato automaticamente un endpoint di analisi SQL. I data lakehouse sono un approccio relativamente nuovo nei sistemi basati su Spark e vengono abilitati grazie a tecnologie come Delta Lake, che aggiunge funzionalità di archiviazione relazionali a Spark, in modo da poter definire tabelle che applicano schemi e coerenza transazionale, supportano origini dati caricate in batch e streaming e offrono un'API SQL per le query.
Servizi di Azure per archivi analitici
In Azure sono disponibili diversi servizi principali che è possibile usare per implementare un archivio analitico su larga scala, tra cui:
Microsoft Fabric è una soluzione unificata end-to-end per l'analisi dei dati su larga scala. Riunisce più tecnologie e funzionalità, consentendo di combinare l'integrità dei dati e l'affidabilità di un data warehouse relazionale scalabile e a prestazioni elevate basato su SQL Server con la flessibilità di un data lake e di Apache Spark open source. Include anche il supporto nativo per l'analisi dei log e dei dati di telemetria con intelligence in tempo reale di Microsoft Fabric, nonché le pipeline di dati predefinite per l'inserimento e la trasformazione dei dati. Ogni esperienza del prodotto Microsoft Fabric ha una propria home, ad esempio la home di Data Factory. Ogni home di Fabric visualizza gli elementi creati e dispone delle autorizzazioni per l'utilizzo da tutte le aree di lavoro a cui si accede. Microsoft Fabric è un'ottima scelta quando si vuole creare una singola soluzione di analisi unificata.
Azure Databricks è un'implementazione di Azure della nota piattaforma Databricks. Databricks è una soluzione completa per l'analisi dei dati basata su Apache Spark e offre funzionalità SQL native e cluster Spark ottimizzati per il carico di lavoro per analisi dei dati e data science. Databricks offre un'interfaccia utente interattiva con cui è possibile gestire il sistema e i dati possono essere esplorati in notebook interattivi. Poiché viene comunemente usata su più piattaforme cloud, è consigliabile usare Azure Databricks come archivio analitico se si vogliono sfruttare le competenze già acquisite con la piattaforma o se è necessario operare in un ambiente multi-cloud o supportare una soluzione cloud portatile.
Nota
Ognuno di questi servizi può essere considerato come un archivio di dati analitici, nel senso mette a disposizione uno schema e un'interfaccia con cui è possibile eseguire query sui dati. In molti casi, tuttavia, i dati vengono effettivamente archiviati in un data lake e il servizio viene usato per elaborare i dati ed eseguire query. Alcune soluzioni possono anche combinare l'uso di questi servizi. Un processo di estrazione, caricamento ed estrazione (ELT) può copiare i dati nel data lake e quindi usare uno di questi servizi per trasformare i dati e un altro per eseguire una query. Ad esempio, una pipeline potrebbe usare un notebook in esecuzione in Azure Databricks per elaborare un volume elevato di dati nel data lake e quindi caricarlo in tabelle in un'istanza di Microsoft Fabric Warehouse.