Utilizzare le pipeline della data factory

Completato

Per utilizzare le pipeline della data factory, è fondamentale sapere che cos'è una pipeline di Azure Data Factory.

Una pipeline in Azure Data Factory rappresenta un raggruppamento logico di operazioni dove le operazioni eseguono insieme una determinata attività.

Un esempio di combinazione di attività in una pipeline è costituito dall'inserimento e dalla pulizia dei dati dei log combinati con un flusso di dati per mapping che analizza i dati dei log puliti.

Una pipeline consente di gestire come set le singole attività, che altrimenti verrebbero gestite individualmente. Tramite una singola pipeline, è possibile distribuire e pianificare le attività in modo più efficiente rispetto alla gestione indipendente di ciascuna attività.

Le attività in una pipeline sono le azioni che è possibile eseguire sui dati. Un'attività può non avere alcun set di dati di input o può averne più di uno e generare uno o più set di dati di output.

Un esempio di azione può essere l'uso di un'attività di copia, in cui si copiano i dati da un database SQL di Azure a un'istanza di Azure Data Lake Storage Gen2. Per sviluppare questo esempio, è possibile usare un'attività di un flusso di dati o un'attività di un notebook di Azure Databricks per l'elaborazione e la trasformazione dei dati copiati nell'account di Azure Data Lake Storage Gen2, in modo che i dati siano pronti per soluzioni di creazione di report di business intelligence come in Azure Synapse Analytics.

Poiché le attività che è possibile eseguire in una pipeline di Azure Data Factory sono numerose, sono stati creati tre gruppi di attività:

  • Attività di spostamento dati: l'attività di copia in Data Factory esegue la copia dei dati da un archivio dati di origine a un archivio dati sink.
  • Attività di trasformazione dei dati: Azure Data Factory supporta attività di trasformazione, ad esempio Flusso di dati, Funzione di Azure, Spark e altre, che possono essere aggiunte alle pipeline singolarmente o concatenate a un'altra attività.
  • Attività di controllo: esempi di attività del flusso di controllo sono "get metadata", "For Each" ed "Execute Pipeline".

Le attività possono dipendere l'una dall'altra, vale a dire che la dipendenza delle attività definisce il modo in cui le attività successive dipendono dalle attività precedenti. La dipendenza in sé può essere basata su una condizione indicante se continuare con l'esecuzione delle operazioni precedenti definite per completare un'attività. Un'attività che dipende da una o più attività precedenti può avere condizioni di dipendenza diverse.

Le quattro condizioni di dipendenza sono:

  • Riuscito
  • Non inviata
  • Ignorato
  • Completato

Se ad esempio una pipeline include un'attività A seguita da un'attività B e l'attività B ha una condizione di dipendenza dall'attività A "riuscita", l'attività B verrà eseguita solo se l'attività A ha lo stato Riuscita.

Se sono disponibili più attività in una pipeline e le attività successive non dipendono da quelle precedenti, le attività possono essere eseguite in parallelo.