Was ist Azure Data Factory?

Abgeschlossen

Zunächst erhalten Sie eine Übersicht über Azure Data Factory, mit der Sie bestimmen können, ob die Lösung eine gute Wahl für die Organisation Ihrer Daten zum Erstellen von geschäftlichen Erkenntnissen ist.

Azure Data Factory ist ein cloudbasierter Dienst für ETL (Extract, Transform, Load – extrahieren, transformieren, laden) und Datenintegrationen, mit dem Sie datengesteuerte Workflows erstellen können, um damit Folgendes zu tun:

  • Datenverschiebung orchestrieren
  • Daten im großen Stil transformieren

Hinweis

Datengesteuerte Workflows werden auch als Pipelines bezeichnet.

Mithilfe von Azure Data Factory können Sie Rohdaten in aussagekräftigen Datenspeichern und Data Lakes neu organisieren und erhalten so eine Basis für bessere Geschäftsentscheidungen.

Was ist eine Datenanalyse?

Die Datenanalyse ist der Prozess, bei dem Rohdaten gesammelt und untersucht werden, um daraus Schlussfolgerungen zu ziehen. Dieser Prozess kann sich schwierig gestalten, wenn sich die Daten an mehreren Speicherorten befinden, z. B. in gehosteten Datenbanken und an lokalen Standorten.

Tipp

Rohdaten sind Daten, die aus einer Quelle gesammelt und noch nicht verarbeitet wurden. Sie werden manchmal als unorganisierte Daten bezeichnet.

Azure bietet verschiedene Technologien, die Sie implementieren können, um die Datenanalyse Ihrer Organisation zu unterstützen, darunter:

  • Azure Synapse Analytics
  • Azure Blob Storage
  • Azure Data Lake Storage
  • Azure Data Lake Analytics
  • Azure Analysis Services
  • Azure HDInsight
  • Azure Databricks
  • Azure Machine Learning

Sie können einige oder alle diese Dienste nach Bedarf verwenden, um die Daten Ihrer Organisation zu analysieren. Keiner dieser Dienste führt jedoch Datenintegrationen durch. Mit einer Datenintegration können Sie Daten aus mehreren Quellen sammeln und diese kombinierten Daten dann an einen Speicherort laden, der für die Datenanalyse geeignet ist. Bei Bedarf können Sie die Daten während dieses Vorgangs transformieren. Sie können diese Aufgaben zwar manuell ausführen, können aber auch Azure Data Factory dafür verwenden.

Definition von Azure Data Factory

Azure Data Factory ist ein cloudbasierter Datenintegrationsdienst, der für die Anforderungen von zwei bestimmten Communitys konzipiert ist, die in der folgenden Tabelle beschrieben werden:

Community Beschreibung der Communityanforderungen
Big-Data-Community Diese Community nutzt Technologien für die Verwaltung großer Mengen unterschiedlicher Daten. Für sie bietet Azure Data Factory eine Möglichkeit zum Erstellen und Ausführen von Pipelines in der Cloud. Diese Pipelines können sowohl auf Clouddatendienste als auch auf lokale Datendienste zugreifen. Diese Pipelines funktionieren in der Regel mit Technologien wie Azure Synapse Analytics, Azure-Blobs und Azure Data Lake. Außerdem sind sie für Azure HDInsight, Azure Databricks und Azure Machine Learning geeignet.
Community für relationales Data Warehousing Diese Community nutzt in der Regel Technologien wie Microsoft SQL Server. SQL Server Integration Services (SSIS) wird häufig zum Erstellen von SSIS-Paketen verwendet. Azure Data Factory bietet dieser Community die Möglichkeit, SSIS-Pakete in Azure auszuführen und so auf cloudbasierte und lokale Datendienste zuzugreifen.

Hinweis

Ein Paket ähnelt einer Azure Data Factory-Pipeline. Jedes Paket definiert einen Prozess zum Extrahieren, Laden, Transformieren oder anderweitigen Arbeiten mit Daten.

Wesentlich ist, dass Azure Data Factory ein einzelner Clouddienst für die Datenintegration ist. Die Lösung bietet alle erforderlichen Tools und eine gemeinsame Verwaltungsschnittstelle für Ihre Datenintegration und unterstützt alle Ihre Datenquellen, unabhängig davon, wo sie sich befinden:

  • Azure
  • Lokal
  • Eine öffentliche Cloudplattform eines Drittanbieters

So kann Azure Data Factory die Datenanalyse unterstützen

Durch Verwendung von Azure Data Factory haben Sie folgende Möglichkeiten:

  • Erstellen komplexer ETL-Prozesse Diese Prozesse können Daten mithilfe von Datenflüssen oder Computediensten wie den Folgenden visuell transformieren:

    • Azure HDInsight Hadoop
    • Azure Databricks
    • Azure SQL-Datenbank
  • Veröffentlichen Sie diese transformierten Daten in Datenspeichern, die von Business Intelligence-Apps verwendet werden können.

In der folgenden Grafik sind externe Datenquellen mit Azure Data Factory verbunden. Ein Speicherblob wird verwendet, um die Daten zu erfassen, während Azure Synapse Analytics als Speicher verwendet wird. Diese Elemente stellen die Orchestrierung zur Verfügung. Die Analyse- und Visualisierungskomponenten, Azure Analysis Service und Power BI sind ebenfalls mit Azure Data Factory verbunden.

Grafik einer möglichen Architektur für die Verwendung von Azure Data Factory.

Tipp

Azure Data Factory bietet mehr als 90 integrierte, wartungsfreie Connectors.