Arbeiten mit Data Factory-Pipelines

Abgeschlossen

Für die Arbeit mit Data Factory-Pipelines müssen Sie zunächst verstehen, was eine Azure Data Factory-Pipeline ist.

Eine Pipeline in Azure Data Factory stellt eine logische Gruppierung von Aktivitäten dar, bei der die Aktivitäten zusammen eine bestimmte Aufgabe ausführen.

Ein Beispiel für eine Kombination von Aktivitäten in einer Pipeline kann das Erfassen und Bereinigen von Protokolldaten in Kombination mit einem Zuordnungsdatenfluss sein, der die bereinigten Protokolldaten analysiert.

Eine Pipeline ermöglicht es Ihnen, die einzelnen Aktivitäten als Satz zu verwalten, die sonst einzeln verwaltet würden. Sie ermöglicht es Ihnen, Aktivitäten mithilfe einer einzelnen Pipeline effizient bereitzustellen und zu planen, anstatt jede Aktivität separat zu verwalten.

Aktivitäten in einer Pipeline werden als Aktionen bezeichnet, die Sie mit Ihren Daten durchführen. Eine Aktivität kann über null oder mehr Eingabedatasets verfügen und ein oder mehrere Ausgabedatasets erstellen.

Ein Beispiel für eine Aktion kann die Verwendung einer Kopieraktivität sein, bei der Sie Daten aus einer Azure SQL-Datenbank in eine Azure DataLake Storage Gen2-Instanz kopieren. Um auf diesem Beispiel aufzubauen, können Sie eine Datenflussaktivität oder eine Azure Databricks Notebook-Aktivität für die Verarbeitung und Transformation der Daten verwenden, die in Ihr Azure Data Lake Storage Gen2-Konto kopiert wurden, um die Daten für Business Intelligence-Berichtslösungen wie in Azure Synapse Analytics bereit zu halten.

Da in Azure Data Factory-Pipelines viele Aktivitäten möglich sind, haben wir sie in drei Kategorien unterteilt:

  • Aktivitäten zur Datenverschiebung: Die Kopieraktivität in Data Factory kopiert Daten von einem Quelldatenspeicher in einen Senkendatenspeicher.
  • Aktivitäten zur Datentransformation: Azure Data Factory unterstützt Transformationsaktivitäten wie Data Flow, Azure Function, Spark und andere, die entweder einzeln oder verkettet mit einer anderen Aktivität zu Pipelines hinzugefügt werden können.
  • Steuerungsaktivitäten: Beispiele für Ablaufsteuerungsaktivitäten sind „get metadata“ (Metadaten abrufen), „For Each“ und „Execute Pipeline“ (Pipeline ausführen).

Aktivitäten können voneinander abhängen. Das bedeutet, dass die Aktivitätsabhängigkeit definiert, wie nachfolgende Aktivitäten von vorherigen Aktivitäten abhängen. Die Abhängigkeit selbst kann auf einer Bedingung basieren, ob die Ausführung von zuvor definierten Aktivitäten fortgesetzt werden soll, um eine Aufgabe zu erledigen. Eine Aktivität, die von einer oder mehreren vorhergehenden Aktivitäten abhängt, kann verschiedene Abhängigkeitsbedingungen aufweisen.

Die vier Abhängigkeitsbedingungen lauten:

  • Erfolgreich
  • Fehler
  • Ausgelassen
  • Abgeschlossen

Wenn eine Pipeline z. B. über eine Aktivität A verfügt, gefolgt von einer Aktivität B, und Aktivität B als Abhängigkeitsbedingung von Aktivität A „Erfolgreich“ aufweist, dann wird Aktivität B nur ausgeführt, wenn Aktivität A den Status „Erfolgreich“ anzeigt.

Bei mehreren Aktivitäten in einer Pipeline, bei denen die nachfolgenden Aktivitäten nicht von den vorherigen abhängig sind, können die Aktivitäten parallel ausgeführt werden.