Erklären des Data Factory-Prozesses

4 Minuten

Datengesteuerte Workflows

Die Pipelines (datengesteuerten Workflows) in Azure Data Factory umfassen in der Regel vier Schritte:

Data Factory-Prozess

Herstellen einer Verbindung und Sammeln von Daten

Der erste Schritt beim Aufbau eines Orchestrierungssystems besteht darin, alle erforderlichen Datenquellen, wie Datenbanken, Dateifreigaben und FTP-Webdienste, zu definieren und miteinander zu verbinden. Der nächste Schritt besteht darin, die Daten bei Bedarf an einem zentralen Ort zur nachfolgenden Verarbeitung zu erfassen.

Transformieren und Erweitern

Computedienste wie Databricks und Machine Learning können genutzt werden, um transformierte Daten gemäß einem verwaltbaren und kontrollierten Zeitplan vorzubereiten oder zu erzeugen, um Produktionsumgebungen mit bereinigten und transformierten Daten zu versorgen. In einigen Fällen können Sie die Quelldaten sogar mit zusätzlichen Daten anreichern, um die Analyse zu unterstützen, oder sie durch einen Normalisierungsprozess konsolidieren, um sie beispielsweise in einem Machine Learning-Experiment zu verwenden.

Veröffentlichen

Nachdem nun als Ergebnis der Transformations- und Anreicherungsphase die Rohdaten in einem für Unternehmen nutzbaren Format vorliegen, können Sie die Daten in Azure Data Warehouse, Azure SQL-Datenbank, Azure CosmosDB oder in eine andere Analyse-Engine laden, auf die Ihre Benutzer in ihren Business Intelligence-Tools verweisen können.

Überwachen

Azure Data Factory verfügt über integrierte Unterstützung für die Pipelineüberwachung mittels Azure Monitor, API, PowerShell, Azure Monitor-Protokollen und Integritätsbereichen im Azure-Portal, um die geplanten Aktivitäten und Pipelines auf Erfolgs- und Fehlerraten zu überwachen.