Informazioni sui flussi di dati Gen2 in Microsoft Fabric
In questo scenario, è necessario sviluppare un modello semantico in grado di standardizzare i dati e renderlo accessibile per l'azienda. Coni flussi di dati Gen2 è possibile connettersi alle varie origini dati, quindi preparare e trasformare i dati. È possibile trasferire i dati direttamente in un lakehouse o usare una pipeline di dati per altre destinazioni.
Che cos'è un flusso di dati?
I flussi di dati sono un tipo di strumento ETL (estrazione, trasformazione e caricamento) basato sul cloud per la creazione e l'esecuzione di processi di trasformazione dei dati scalabili.
I flussi di dati Gen2 consentono di estrarre dati da varie origini, trasformarli usando un'ampia gamma di operazioni di trasformazione e caricarli in una destinazione. L'uso di Power Query Online consente anche di eseguire queste attività con un'interfaccia visiva.
Fondamentalmente, un flusso di dati include tutte le trasformazioni per ridurre il tempo di preparazione dei dati e quindi può essere caricato in una nuova tabella, incluso in una pipeline di dati o usato come origine dati dagli analisti dei dati.
Come usare i flussi di dati Gen2
Tradizionalmente, gli ingegneri dei dati dedicano molto tempo all'estrazione, alla trasformazione e al caricamento dei dati in un formato utilizzabile per l'analisi downstream. L'obiettivo dei flussi di dati Gen2 è fornire un modo semplice e riutilizzabile per eseguire attività ETL usando Power Query Online.
Se si sceglie di usare solo una pipeline di dati, copiare i dati e quindi usare il linguaggio di codifica preferito per estrarre, trasformare e caricare i dati. In alternativa, è possibile creare prima un flusso di dati Gen2 per estrarre e trasformare i dati. È anche possibile caricare i dati in un lakehouse e in altre destinazioni. Ora l'azienda può usare facilmente il modello semantico curato.
L'aggiunta di una destinazione dati al flusso di dati è facoltativa e il flusso di dati mantiene tutti i passaggi di trasformazione. Per eseguire altre attività o caricare dati in una destinazione diversa dopo la trasformazione, creare una pipeline di dati e aggiungere l'attività flusso di dati Gen2 all'orchestrazione.
Un'altra opzione potrebbe essere quella di usare una pipeline di dati e un flusso di dati Gen2 per il processo ELT (estrazione, trasformazione e caricamento). Per questo ordine, si userà una pipeline per estrarre e caricare i dati nella destinazione preferita, ad esempio il lakehouse. Si creerà poi un flusso di dati Gen2 per connettersi ai dati di Lakehouse per pulire e trasformare i dati. In questo caso, si offrirà il flusso di dati come modello semantico curato utilizzabile dagli analisti di dati per sviluppare report.
I flussi di dati possono anche essere partizionati orizzontalmente. Dopo aver creato un flusso di dati globale, gli analisti di dati possono usare i flussi di dati per creare modelli semantici specializzati per esigenze specifiche.
I flussi di dati consentono di promuovere l'uso della logica ETL riutilizzabile, che evita di dover creare connessioni aggiuntive all'origine dati. I flussi di dati offrono un'ampia gamma di trasformazioni e possono essere eseguiti manualmente, in base a una pianificazione di aggiornamento o come parte di un'orchestrazione della pipeline di dati.
Suggerimento
È possibile rendere disponibile il flusso di dati per consentire agli analisti dei dati di connettersi anche al flusso di dati tramite Power BI Desktop. Ciò riduce i tempi di preparazione dei dati per lo sviluppo di report.
Vantaggi e limitazioni
Microsoft Fabric supporta più approcci per i processi ETL o ELT sui dati. Valutare i vantaggi e le limitazioni per l'uso dei flussi di dati Gen2.
Vantaggi:
- Estendere i dati con dati coerenti, ad esempio una tabella delle dimensioni di data standard.
- Consentire agli utenti self-service di accedere a un subset di data warehouse separatamente.
- Ottimizzare le prestazioni con i flussi di dati, che consentono di estrarre i dati una volta per il riutilizzo, riducendo il tempo di aggiornamento dei dati per le origini più lente.
- Semplificare la complessità dell'origine dati esponendo solo i flussi di dati a gruppi di analisti più grandi.
- Garantire coerenza e qualità dei dati consentendo agli utenti di pulire e trasformare i dati prima di caricarli in una destinazione.
- Semplificare l'integrazione dei dati fornendo un'interfaccia low-code per l'inserimento di dati da varie origini.
Limitazioni :
- I flussi di dati non sostituiscono un data warehouse.
- Sicurezza a livello di riga non supportata.
- È necessaria un'area di lavoro per capacità Fabric.