Comprendere il flusso di controllo della data factory
Che cos'è il flusso di controllo
Il flusso di controllo è un'orchestrazione delle attività della pipeline, che include il concatenamento di attività in una sequenza, la creazione di rami, la definizione di parametri a livello di pipeline e il passaggio di argomenti durante la chiamata della pipeline su richiesta o da un trigger.
Il flusso di controllo può anche includere i contenitori di ciclo, che possono passare le informazioni per ogni iterazione del contenitore di ciclo.
Se un ciclo For Each viene usato come attività del flusso di controllo, Azure Data Factory può avviare più attività in parallelo usando questo approccio. In questo modo è possibile creare una logica di elaborazione complessa e iterativa all'interno delle pipeline create con Azure Data Factory, che supporta la creazione di modelli di integrazione dei dati diversi, ad esempio la creazione di un data warehouse moderno.
Nelle sezioni seguenti sono descritte alcune delle comuni attività del flusso di controllo.
Concatenamento di attività
In Azure Data Factory è possibile concatenare le attività in una sequenza all'interno di una pipeline. È possibile usare la proprietà dependsOn in una definizione di attività per concatenare l'attività a un'attività upstream.
Diramazione di attività
Usare Azure Data Factory per le attività di diramazione in una pipeline. Un esempio di attività di diramazione è The If-condition, che è simile a un'istruzione if dei linguaggi di programmazione. Un'attività di diramazione valuta un set di attività e, quando la condizione restituisce true, il set di attività viene eseguito. Quando restituisce false, viene eseguito un set di attività alternativo.
Parametri
È possibile definire parametri a livello di pipeline e passare argomenti quando si richiama la pipeline on demand o da un trigger. Le attività utilizzano quindi gli argomenti contenuti in un parametro quando vengono passati alla pipeline.
Passaggio di stato personalizzato
Il passaggio di stato personalizzato è reso possibile da Azure Data Factory. Il passaggio di stato personalizzato è un'attività che ha creato l'output o lo stato dell'attività che deve essere utilizzato da un'attività successiva della pipeline. In una definizione JSON di un'attività, ad esempio, è possibile accedere all'output dell'attività precedente. L'uso del passaggio di stato personalizzato consente di creare flussi di lavoro in cui i valori passano da un'attività all'altra.
Contenitori di ciclo
L'ambito dei contenitori di ciclo del flusso di controllo, ad esempio l'attività ForEach, definisce la ripetizione in una pipeline. Consente di eseguire l'iterazione di una raccolta ed esegue le attività specificate nel ciclo definito. Il funzionamento è simile a quello della "struttura del ciclo for each" usata nei linguaggi di programmazione. Oltre a ogni attività, esiste anche un'attività Until. Questa funzionalità è simile a un ciclo do-until usato nella programmazione. Esegue un set di attività (do) in un ciclo finché la condizione (until) non viene soddisfatta.
Flussi attivati da trigger
Le pipeline possono essere attivate su richiesta (basate su eventi, ad esempio BLOB Post) o con una pianificazione basata sul tempo.
Richiamare una pipeline da un'altra pipeline
L'attività Execute Pipeline con Azure Data Factory consente a una pipeline di Data Factory di richiamare un'altra pipeline.
Flussi delta
I casi d'uso correlati all'uso dei flussi delta sono i carichi delta. I carichi delta nei modelli ETL caricheranno solo i dati che sono stati modificati dopo una precedente iterazione di una pipeline. Le funzionalità quali l'attività Lookup e la pianificazione flessibile consentono di gestire i processi di caricamento delta. Qualora venga usata un'attività Lookup, questa leggerà o cercherà il valore del nome di un record o di una tabella da qualsiasi origine esterna. Questo output può essere referenziato ulteriormente dalle attività successive.
Altri flussi di controllo
Esistono molte altre attività del flusso di controllo. Per altre attività utili, vedere quanto segue:
Attività Web: l'attività Web in Azure Data Factory, usando i flussi di controllo, può chiamare un endpoint REST personalizzato da una pipeline di Data Factory. I set di dati e i servizi collegati possono essere passati e utilizzati dall'attività.
Attività Get metadata: l'attività Get metadata recupera i metadati di tutti i dati in Azure Data Factory.