Freigeben über


Was ist Workflow Orchestration Manager?

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

Hinweis

Apache Airflow ist jetzt über Microsoft Fabric zugänglich. Microsoft Fabric bietet eine Vielzahl von Apache Airflow-Funktionen über Datenworkflows. Es wird empfohlen, Ihre vorhandenen Workflows, die auf Workflow Orchestration Manager (Apache Airflow in ADF) basieren, zu Datenworkflows (Apache Airflow in Microsoft Fabric) zu migrieren, um noch mehr Features zu erhalten. Apache Airflow-Funktionen sind ab dem ersten Quartal des Kalenderjahrs 2025 nur in Microsoft Fabric verfügbar. Für neue Apache Airflow-Projekte wird die Verwendung von Apache Airflow in Microsoft Fabric empfohlen. Weitere Informationen finden Sie hier. Neue Benutzer dürfen keinen neuen Workflow-Orchestrierungs-Manager in ADF erstellen, aber vorhandene Benutzer mit einem Workflow-Orchestrierungs-Manager können sie weiterhin verwenden, planen aber bald eine Migration.

Hinweis

Workflow Orchestration Manager für Azure Data Factory basiert auf der Open-Source-Anwendung Apache Airflow. Die Dokumentation und weitere Tutorials zu Airflow finden Sie in der Dokumentation zu Apache Airflow oder auf den Communityseiten.

Azure Data Factory bietet serverlose Pipelines für die Orchestrierung von Datenprozessen, Datenverschiebung mit mehr als 100 verwalteten Connectors und visuelle Transformationen mit dem Zuordnungsdatenfluss.

Der Dienst Azure Data Factory mit Workflow Orchestration Manager-Instanz ist ein einfacher und effizienter Weg, um Apache Airflow-Umgebungen zu erstellen und zu verwalten, so dass Sie Datenpipelines in großem Umfang problemlos ausführen können. Apache Airflow ist eine Open-Source-Plattform, die zum programmgesteuerten Erstellen, Planen und Überwachen komplexer Datenworkflows verwendet wird. Es ermöglicht Ihnen, eine Reihe von Aufgaben zu definieren, die als Operatoren bezeichnet werden und zu gerichteten azyklischen Graphen (Directed Acyclic Graphs, DAGs) kombiniert werden können, um Datenpipelines darzustellen. Airflow ermöglicht es Ihnen, diese gerichteten azyklischen Graphen nach einem Zeitplan oder als Reaktion auf ein Ereignis auszuführen, den Fortschritt der Workflows zu überwachen und den Status jeder Aufgabe sichtbar zu machen. Es wird häufig in der Datentechnik und Data Science verwendet, um Datenpipelines zu orchestrieren, und ist für seine Flexibilität, Erweiterbarkeit und Benutzerfreundlichkeit bekannt.

Screenshot der Datenintegration.

Wann soll der Workflow Orchestration Manager verwendet werden?

Azure Data Factory bietet Pipelines zum visuellen Orchestrieren von Datenprozessen (UI-basierte Erstellung). Während der Verwendung Workflow Orchestration Manager-Instanzen werden Airflow-basierte Python-DAGs (Python-codezentrierte Erstellung) zum Definieren des Datenorchestrierungsprozesses bereitgestellt. Wenn Sie über den Airflow-Hintergrund verfügen oder derzeit Apache Airflow verwenden, sollten Sie anstelle der Pipelines eine Workflow Orchestration Manager-Instanz verwenden. Andererseits ziehen Sie möglicherweise, wenn Sie pythonbasierte DAGs für die Datenprozessorchestrierung nicht schreiben/verwalten möchten, die Verwendung von Pipelines vor.

Mit Workflow Orchestration Manager-Instanzen bietet Azure Data Factory jetzt Multiorchestrierungsfunktionen, die sich über visuelle, codeorientierte OSS-Orchestrierungsanforderungen erstrecken.

Features

Azure Data Factory mit Workflow Orchestration Manager-Instanz bietet eine Reihe leistungsstarker Features. Unter anderem:

  • Schnelle und einfache Bereitstellung – Sie können Apache Airflow schnell und einfach einrichten, indem Sie eine Apache Airflow-Version auswählen, wenn Sie einen Workflow Orchestration Manager erstellen.
  • Cloudskalierung – Die Workflow Orchestration Manager-Instanz skaliert Apache Airflow-Knoten bei Bedarf automatisch basierend auf Bereichsspezifikationen (min, max).
  • Microsoft Entra-Integration - Sie können Microsoft Entra RBAC für Ihre Airflow-Umgebung aktivieren, um eine einmalige Anmeldung zu ermöglichen, die durch Microsoft Entra ID gesichert ist.
  • Metadatenverschlüsselung – Die Workflow Orchestration Manager-Instanz verschlüsselt Metadaten automatisch mit von Azure verwalteten Schlüsseln, um sicherzustellen, dass Ihre Umgebung standardmäßig sicher ist. Darüber hinaus unterstützt es die doppelte Verschlüsselung mit einem kundenseitig verwalteten Schlüssel (CMK).
  • Azure-Überwachung und -Warnungen – Alle von der Workflow Orchestration Manager-Instanz generierten Protokolle werden nach Azure Monitor exportiert. Darüber hinaus werden Metriken bereitgestellt, um kritische Zustände zu verfolgen und Sie bei Bedarf zu benachrichtigen.

Aufbau

Screenshot der Architektur im Workflow Orchestration Manager.

Verfügbarkeit der Region (öffentliche Vorschau)

  • USA, Osten
  • USA (Mitte/Süden)
  • USA, Westen
  • Brasilien, Süden
  • UK, Süden
  • Nordeuropa
  • Europa, Westen
  • Asien, Südosten

Hinweis

Die Airflow-Umgebungsregion ist standardmäßig auf die Data Factory-Region festgelegt und nicht konfigurierbar. Stellen Sie daher sicher, dass Sie eine Data Factory in der oben unterstützten Region verwenden, um auf die Vorschauversion der Workflow Orchestration Manager-Version zugreifen zu können.

Unterstützte Apache Airflow-Versionen

  • 2.6.3

Hinweis

Das Ändern der Airflow-Version in einer vorhandenen IR wird nicht unterstützt. Stattdessen wird empfohlen, eine neue Airflow-IR mit der gewünschten Version zu erstellen

Integrationen

Apache Airflow kann über den microsoft.azure-Anbieter in Microsoft Azure-Dienste integriert werden.

Sie können ein beliebiges Anbieterpaket installieren, indem Sie die Airflow-Umgebung über die Benutzeroberfläche der Azure Data Factory bearbeiten. Die Installation des Pakets dauert ein paar Minuten.

Screenshot der Airflow-Integration.

Einschränkungen

  • Workflow Orchestration Manager in anderen Regionen ist allgemeine verfügbar.
  • Auf Datenquellen, die über den Airflow verbunden sind, sollte über den öffentlichen Endpunkt (Netzwerk) zugegriffen werden.
  • DAGs, die sich in einem Blob Storage im VNet/hinter einer Firewall befinden, werden derzeit nicht unterstützt. Stattdessen empfehlen wir die Verwendung der Git-Synchronisierungsfunktion von Workflow Orchestration Manager. Siehe: Synchronisieren eines GitHub-Repositorys im Workflow Orchestration Manager
  • Das Importieren von Dags aus Azure Key Vault wird in LinkedServices nicht unterstützt.