Funktionsweise von Azure Data Factory

Abgeschlossen

Erfahren Sie mehr über die Komponenten und miteinander verbundenen Systeme von Azure Data Factory und deren Funktionsweise. Mit diesen Kenntnissen können Sie bestimmen, wie Sie Azure Data Factory am besten verwenden können, um die Anforderungen Ihrer Organisation zu erfüllen.

Azure Data Factory ist eine Sammlung miteinander verbundener Systeme, die kombiniert werden, um eine umfassende Datenanalyseplattform bereitzustellen. In dieser Lerneinheit erfahren Sie mehr über die folgenden Azure Data Factory-Funktionen:

  • Herstellen einer Verbindung und Sammeln von Daten
  • Transformieren und Erweitern
  • Continuous Integration und Continuous Delivery (CI/CD) und Veröffentlichung
  • Überwachung

Außerdem erfahren Sie mehr über diese wichtigen Komponenten von Azure Data Factory:

  • Pipelines
  • Aktivitäten
  • Datasets
  • Verknüpfte Dienste
  • Datenflüsse
  • Integration Runtimes

Azure Data Factory-Funktionen

Azure Data Factory besteht aus mehreren Funktionen, die kombiniert werden, um Ihren Data Engineers eine vollständige Datenanalyseplattform bereitzustellen.

Herstellen einer Verbindung und Sammeln von Daten

Der erste Teil des Prozesses besteht darin, die erforderlichen Daten aus den entsprechenden Datenquellen zu sammeln. Diese Quellen können sich an unterschiedlichen Orten befinden, einschließlich lokaler Quellen und in der Cloud. Diese Daten können in folgenden Formen vorliegen:

  • Strukturiert
  • Unstrukturiert
  • Teilweise strukturiert

Darüber hinaus können diese unterschiedlichen Daten mit unterschiedlichen Geschwindigkeiten und in unterschiedlichen Abständen eintreffen. Mit Azure Data Factory können Sie die Kopieraktivität verwenden, um Daten aus verschiedenen Quellen in einen zentralen Datenspeicher in der Cloud zu verschieben. Nach dem Kopieren der Daten verwenden Sie andere Systeme, um sie zu transformieren und zu analysieren.

Die Kopieraktivität führt die folgenden allgemeinen Schritte aus:

  1. Daten aus dem Quelldatenspeicher lesen

  2. Die folgenden Aufgaben für die Daten ausführen:

    • Serialisierung/Deserialisierung
    • Komprimierung/Dekomprimierung
    • Spaltenzuordnung

    Hinweis

    Möglicherweise sind weitere Aufgaben vorhanden.

  3. Schreiben von Daten in den Zieldatenspeicher (als Senke bezeichnet)

Dieser Prozess wird in der folgenden Grafik zusammengefasst:

Grafik des vorhergehenden Prozesses.

Transformieren und Erweitern

Wenn Sie die Daten erfolgreich an einen zentralen cloudbasierten Speicherort kopiert haben, können Sie sie nach Bedarf mithilfe von Zuordnungsdatenflüssen in Azure Data Factory verarbeiten und transformieren. Mit Datenflüssen können Sie Datentransformationsgraphen erstellen, die unter Spark ausgeführt werden. Sie müssen jedoch keine Spark-Cluster oder Spark-Programmierung verstehen.

Tipp

Obwohl dies nicht notwendig ist, möchten Sie Ihre Transformationen möglicherweise manuell schreiben. Wenn dies der Fall ist, unterstützt Azure Data Factory externe Aktivitäten zum Ausführen Ihrer Transformationen.

CI/CD und Veröffentlichung

Die Unterstützung für CI/CD ermöglicht es Ihnen, Ihre ETL-Prozesse (Extract, Transform, Load – extrahieren, transformieren, laden) vor der Veröffentlichung inkrementell zu entwickeln und zu liefern. Azure Data Factory ermöglicht CI/CD Ihrer Datenpipelines mit:

  • Azure DevOps
  • GitHub

Hinweis

Continuous Integration bedeutet, dass jede Änderung, die an Ihrer Codebasis vorgenommen wird, automatisch und so früh wie möglich getestet wird. Der Continuous Delivery-Prozess folgt auf dieses Testen. Änderungen werden dabei in ein Staging- oder Produktionssystem gepusht.

Nachdem Azure Data Factory die Rohdaten aufbereitet hat, können Sie die Daten in die Analyse-Engine laden, auf die Ihre Geschäftsbenutzer über ihre Business Intelligence-Tools zugreifen können, einschließlich:

  • Azure Synapse Analytics
  • Azure SQL-Datenbank
  • Azure Cosmos DB

Monitor

Nachdem Sie Ihre Datenintegrationspipeline erfolgreich erstellt und bereitgestellt haben, ist es wichtig, dass Sie Ihre geplanten Aktivitäten und Pipelines überwachen können. Durch die Überwachung können Sie Erfolgs- und Fehlerraten nachverfolgen. Azure Data Factory unterstützt die Pipelineüberwachung mithilfe einer der folgenden Methoden:

  • Azure Monitor
  • API
  • PowerShell
  • Azure Monitor-Protokolle
  • Integritätspanels im Azure-Portal

Azure Data Factory-Komponenten

Azure Data Factory besteht aus den in der folgenden Tabelle beschriebenen Komponenten:

Komponente BESCHREIBUNG
Pipelines Eine logische Gruppierung von Aktivitäten, die eine bestimmte Arbeitseinheit ausführen. Diese Aktivitäten führen zusammen eine Aufgabe aus. Der Vorteil der Verwendung einer Pipeline besteht in der einfacheren Verwaltung der Aktivitäten als Gruppe anstatt als einzelne Elemente.
activities Ein einzelner Verarbeitungsschritt in einer Pipeline Azure Data Factory unterstützt drei Arten von Aktivitäten: Datenverschiebung, Datentransformation und Steuerung.
Datasets Stellen Datenstrukturen in Ihren Datenspeichern dar. Diese Datasets zeigen bzw. verweisen auf die Daten, die Sie in Ihren Aktivitäten verwenden möchten, z. B. Ein- oder Ausgaben.
Verknüpfte Dienste Definieren die erforderlichen Verbindungsinformationen, die für Azure Data Factory zur Verbindung mit externen Ressourcen wie einer Datenquelle erforderlich sind. Azure Data Factory verwendet diese für zwei Zwecke: zur Darstellung eines Datenspeichers oder einer Computeressource.
Datenflüsse Ermöglichen es Ihren Data Engineers, Datentransformationslogik zu entwickeln, ohne Code schreiben zu müssen. Datenflüsse werden als Aktivitäten in Azure Data Factory-Pipelines ausgeführt, für die erweiterte Apache Spark-Cluster verwendet werden.
Integration Runtimes Azure Data Factory verwendet die Computeinfrastruktur, um die folgenden Datenintegrationsfunktionen für verschiedene Netzwerkumgebungen zur Verfügung zu stellen: Datenflüsse, Datenverschiebungen, Aktivitätsdispatch und SSIS-Paketausführungen (SQL Server Integration Services). In Azure Data Factory stellt eine Integration Runtime die Brücke zwischen der Aktivität und verknüpften Diensten bereit.

In der folgenden Grafik ist zu sehen, wie diese Komponenten zusammenarbeiten, um eine vollständige und umfassende Plattform für Data Engineers bereitzustellen. Mit Azure Data Factory haben Sie folgende Möglichkeiten:

  • Legen Sie Trigger bedarfsgesteuert fest, und planen Sie die Datenverarbeitung basierend auf Ihren Anforderungen.
  • Ordnen Sie eine Pipeline einem Trigger zu, oder starten Sie sie bei Bedarf manuell.
  • Stellen Sie über Integration Runtimes eine Verbindung mit verknüpften Diensten her, z. B. mit lokalen Apps und Daten oder mit Azure-Diensten.
  • Überwachen Sie alle Pipelineausführungen nativ in der Azure Data Factory-Benutzeroberfläche oder mithilfe von Azure Monitor.

Grafik der Interaktion der in der vorherigen Tabelle beschriebenen Komponenten.