Processo di inserimento con analisi scalabili nel cloud in Azure
Azure offre diversi servizi per inserire e rilasciare dati in piattaforme native e di terze parti. È possibile usare servizi diversi, a seconda del volume, della velocità, della varietà e della direzione. Alcuni di questi servizi sono:
- Azure Data Factory è un servizio creato per tutte le esigenze applicative di dati e i livelli di competenza (allineati alla sorgente). Scrivere codice o costrutto personalizzato, estrarre, caricare e trasformare i processi all'interno dell'ambiente visivo intuitivo e senza codice. Con oltre 90 connettori nativamente creati e senza manutenzione, integra visivamente le origini dati senza costi aggiuntivi. I tecnici possono usare endpoint privati e collegare servizi per connettersi in modo sicuro alle risorse PaaS (Platform as a Service) di Azure senza usare gli endpoint pubblici della risorsa PaaS. I tecnici possono usare i runtime di integrazione per estendere le pipeline a ambienti di terze parti come origini dati locali e altri cloud.
Alcuni di questi connettori supportano l'uso come origine (lettura) o come destinazione (scrittura). I servizi nativi di Azure, Oracle, SAP e altri possono essere usati come origine o sink, ma non tutti i connettori lo supportano. In questi casi, è possibile usare connettori generici come ODBC (Open Database Connectivity), il file system o i connettori SFTP (SSH File Transfer Protocol).
azure Databricks è un servizio di analisi rapido, semplice e collaborativo basato su Apache Spark. Per una pipeline di Big Data, è possibile inserire i dati (non elaborati o strutturati) in Azure tramite Data Factory in batch o con trasmissione in tempo quasi reale con Apache Kafka, Azure Event Hubs o IoT Hub. Questi dati vengono inseriti in un data lake per l'archiviazione persistente a lungo termine in Azure Data Lake Storage. Azure Databricks può leggere dei dati da più origini dati come parte del flusso di lavoro.
Microsoft Power Platform offre connettori a centinaia di servizi che possono essere basati su eventi, pianificazioni o push. Microsoft Power Automate può agire sugli eventi e attivare flussi di lavoro ottimizzati per singoli record o volumi di dati di piccole dimensioni.
Gli strumenti nativi e di terze parti proprietari offrono funzionalità di nicchia per l'integrazione con sistemi specializzati e la replica quasi in tempo reale.
- Azure Data Share supporta le organizzazioni a condividere in modo sicuro i dati con più clienti e partner esterni. Dopo aver creato un account di condivisione dati e aver aggiunto prodotti dati, i clienti e i partner possono essere invitati alla condivisione dati. I provider di dati sono sempre in controllo dei dati condivisi. Condivisione dati di Azure semplifica la gestione e il monitoraggio dei dati condivisi, quando sono stati condivisi e chi lo ha condiviso.
Importante
Ogni zona di destinazione dei dati può avere un gruppo di risorse di inserimento dati esistente per le aziende con un motore di inserimento indipendente dai dati. Se questo motore di framework non è disponibile, l'unica risorsa consigliata consiste nella distribuzione di un'area di lavoro di analisi di Azure Databricks, che verrebbe usata dalle integrazioni dei dati per eseguire l'inserimento complesso. Consultare il motore di acquisizione indipendente dai dati per i modelli di automazione potenziali.
Considerazioni sull'acquisizione di dati per Azure Data Factory
Se si dispone di un motore di inserimento indipendente dai dati, è necessario distribuire una singola data factory per ogni zona di destinazione dei dati nel gruppo di risorse di inserimento dati. L'area di lavoro di Data Factory deve essere bloccata agli utenti e solo le identità gestite e le entità servizio avranno accesso alla distribuzione. Le operazioni della zona di destinazione dei dati devono avere accesso in lettura per consentire il debug della pipeline.
L'applicazione dati può avere una propria Data Factory per lo spostamento dei dati. La presenza di una data factory in ogni gruppo di risorse dell'applicazione dati supporta un'esperienza completa di integrazione continua (CI) e distribuzione continua (CD) consentendo solo la distribuzione di pipeline da Azure DevOps o GitHub.
Tutti gli spazi di lavoro di Data Factory useranno principalmente la funzionalità di rete virtuale gestita in Data Factory o il runtime di integrazione self-hosted per la zona di approdo dei dati all'interno dell'area di gestione dei dati. I tecnici sono invitati a usare la funzionalità di rete virtuale gestita per connettersi in modo sicuro alla risorsa PaaS di Azure.
Tuttavia, è possibile creare più runtime di integrazione per l'inserimento da cloud locali, di terze parti e di origini dati SaaS (Software as a Service) di terze parti.
Considerazioni sull'inserimento per Azure Databricks
Queste linee guida dettagliano le informazioni presenti in:
Protezione dell'accesso ad Azure Data Lake Storage Gen2 da Azure Databricks
Per lo sviluppo, le operazioni di integrazione devono avere i propri ambienti Azure Databricks prima di effettuare il commit del codice da distribuire nell'unico spazio di lavoro di Azure Databricks durante i test e la produzione.
Data Factory nel gruppo di risorse dell'applicazione dati (allineati alla sorgente) deve fornire il framework per eseguire i processi di Azure Databricks.
I team delle applicazioni dati possono distribuire processi brevi e automatizzati in Azure Databricks e prevedere che i cluster inizino rapidamente, eseseguono il processo e terminino. È consigliabile configurare i pool di Azure Databricks per ridurre il tempo necessario per l'avvio dei cluster per l'esecuzione dei job.
È consigliabile che le organizzazioni usino Azure DevOps per implementare un framework di distribuzione per le nuove pipeline. Il framework verrà usato per creare le cartelle del set di dati, assegnare elenchi di controllo di accesso e creare una tabella con o senza applicare i controlli di accesso alle tabelle di Databricks.
Inserimento di flussi
Le organizzazioni potrebbero dover supportare scenari in cui gli editori generano flussi di eventi ad alta velocità. Per questo modello, è consigliato utilizzare una coda di messaggi, come ad esempio Hub Eventi o Hub IoT, per l'acquisizione di questi flussi.
Hub eventi e hub IoT sono servizi di elaborazione eventi scalabili in grado di inserire ed elaborare volumi di eventi di grandi dimensioni e dati con bassa latenza e affidabilità elevata. Event Hubs è progettato come servizio di streaming e acquisizione di eventi di big data. L'hub IoT è un servizio gestito che funge da hub messaggi centrale per la comunicazione bidirezionale tra un'applicazione IoT e i dispositivi gestiti. Da qui, i dati possono essere esportati in un data lake a intervalli regolari (batch) ed elaborati con Azure Databricks quasi in tempo reale tramite Apache Spark Streaming, Azure Data Explorer, Stream Analytics o Time Series Insights.
L'ultima zona di atterraggio di Event Hubs o Apache Kafka all'interno della zona di atterraggio specifica per il caso d'uso dovrebbe inviare i dati aggregati allo strato grezzo del data lake in una delle zone di atterraggio dati e a Event Hubs correlati al gruppo di risorse dell'applicazione dati (allineato alla sorgente) nella zona di atterraggio dati.
Monitorare l'acquisizione
È possibile usare di monitoraggio della pipeline di Azure Data Factory per monitorare e risolvere le eccezioni delle pipeline di Data Factory. Riduce lo sforzo di sviluppare una soluzione personalizzata di monitoraggio e creazione di report.
Il monitoraggio predefinito è uno dei motivi principali per usare Azure Data Factory come strumento di orchestrazione principale, e Azure Policy può aiutare ad automatizzare questa configurazione.