Condividi tramite


Che cosa sono i flussi di dati in Azure Synapse Analytics?

I flussi di dati sono trasformazioni dei dati progettate visivamente in Azure Synapse Analytics. I flussi di dati consentono agli ingegneri dei dati di sviluppare graficamente la logica delle trasformazioni dei dati senza scrivere codice. I flussi di dati risultanti vengono eseguiti come attività all'interno delle pipeline di Azure Synapse Analytics usando cluster di Apache Spark con scalabilità orizzontale. Le attività del flusso di dati possono essere rese operative tramite le funzionalità esistenti di pianificazione, controllo, flusso e monitoraggio di Azure Synapse Analytics.

I flussi di dati offrono un'esperienza visiva completamente priva di codifica. I flussi di dati vengono eseguiti nei cluster di esecuzione gestiti da Synapse per l'elaborazione dei dati con scalabilità orizzontale. Azure Synapse Analytics gestisce automaticamente tutte le attività di conversione del codice, ottimizzazione dei percorsi ed esecuzione dei processi dei flussi di dati.

Operazioni preliminari

I flussi di dati vengono creati nel riquadro Sviluppo in Synapse Studio. Per creare un flusso di dati, selezionare il segno più accanto a Sviluppo e quindi selezionare Flusso di dati.

Nuovo flusso di dati

Questa azione consente di accedere all'area di disegno del flusso di dati, in cui è possibile creare la logica di trasformazione. Selezionare Aggiungi origine per iniziare a configurare la trasformazione dell'origine. Per altre informazioni, vedere Trasformazione dell'origine.

Creazione di flussi di dati

Il flusso di dati è dotato di un'area del contenuto specificatamente progettata per semplificare la creazione della logica di trasformazione. L'area di disegno di un flusso di dati è suddivisa in tre parti: la barra superiore, il grafo e il pannello di configurazione.

Screenshot che mostra il canvas del flusso di dati con l'etichetta barra superiore, grafico e pannello di configurazione.

Grafico

Il grafo visualizza il flusso di trasformazione. Mostra la derivazione dei dati di origine durante il flusso in uno o più sink. Per aggiungere una nuova origine, selezionare Aggiungi origine. Per aggiungere una nuova trasformazione, selezionare il segno più in basso a destra di una trasformazione esistente. Altre informazioni su come gestire il grafo del flusso di dati.

Screenshot che mostra la parte del grafico del canvas con una casella di testo Cerca.

Pannello di configurazione

Il pannello di configurazione mostra le impostazioni specifiche della trasformazione attualmente selezionata. Se non è selezionata alcuna trasformazione, viene visualizzato il flusso di dati. Nella configurazione complessiva del flusso di dati è possibile aggiungere parametri tramite la scheda Parametri. Per altre informazioni, vedere Parametri del flusso di dati.

Ogni trasformazione contiene almeno quattro schede di configurazione.

Impostazioni della trasformazione

La prima scheda nel riquadro di configurazione di ogni trasformazione contiene le impostazioni specifiche di tale trasformazione. Per altre informazioni, vedere la pagina della documentazione della trasformazione.

Scheda Impostazioni origine

Ottimizzazione

La scheda Ottimizza contiene le impostazioni per configurare gli schemi di partizione. Per altre informazioni su come ottimizzare i flussi di dati, vedere la guida sulle prestazioni del flusso di dati per mapping.

Screenshot che mostra la scheda Ottimizza

Controllare

Nel riquadro Ispeziona è disponibile la vista dei metadati del flusso di dati in corso di trasformazione. È possibile visualizzare i conteggi delle colonne, le colonne modificate, le colonne aggiunte, i tipi di dati, l'ordine delle colonne e i riferimenti di colonna. Il riquadro Ispeziona è una vista di sola lettura dei metadati. Non è necessario che la modalità di debug sia abilitata per visualizzare i metadati nel riquadro Ispeziona.

Scheda Controlla

Quando si cambia la forma dei dati tramite trasformazioni, la modifica viene automaticamente applicata al flusso dei metadati all'interno del riquadro Ispeziona. Se nella trasformazione dell'origine non è definito uno schema, i metadati non saranno visibili nel riquadro Ispeziona. L'assenza di metadati è comune negli scenari relativi allo spostamento schema.

Anteprima dati

Se la modalità di debug è attivata, la scheda Anteprima dati fornisce uno snapshot interattivo dei dati in ogni trasformazione. Per altre informazioni, vedere Anteprima dei dati in modalità di debug.

Barra superiore

La barra superiore contiene azioni che interessano l'intero flusso di dati, ad esempio le impostazioni di convalida e debug. È anche possibile visualizzare il codice JSON sottostante e lo script del flusso di dati della logica di trasformazione.

Trasformazioni disponibili

Visualizzare la panoramica della trasformazione del flusso di dati per mapping per ottenere l'elenco delle trasformazioni disponibili.

Attività del flusso di dati

I flussi di dati vengono resi operativi all'interno delle pipeline di Synapse Analytics usando l'attività del flusso di dati. Un utente non deve fare altro che specificare il runtime di integrazione da usare e passare i valori dei parametri. Per altre informazioni, consultare gli articoli sul runtime di integrazione di Azure.

Modalità di debug

La modalità di debug consente di visualizzare in modo interattivo i risultati di ogni passaggio di trasformazione durante la compilazione e il debug dei flussi di dati. La sessione di debug può essere usata sia durante la compilazione della logica del flusso di dati che durante l'esecuzione di debug della pipeline con attività del flusso di dati. Per altre informazioni, vedere la documentazione sulla modalità di debug.

Monitoraggio dei flussi di dati

Il flusso di dati si integra con le funzionalità di monitoraggio di Azure Synapse Analytics esistenti. Per informazioni su come analizzare l'output del monitoraggio del flusso di dati, vedere Monitoraggio dei flussi di dati per mapping.

Il team di Azure Synapse Analytics ha creato una guida per l'ottimizzazione delle prestazioni che consente di ottimizzare il tempo di esecuzione dei flussi di dati dopo la compilazione della logica di business.