Erklären des Data Factory-Prozesses
Datengesteuerte Workflows
Die Pipelines (datengesteuerten Workflows) in Azure Data Factory umfassen in der Regel vier Schritte:
Herstellen einer Verbindung und Sammeln von Daten
Der erste Schritt beim Aufbau eines Orchestrierungssystems besteht darin, alle erforderlichen Datenquellen, wie Datenbanken, Dateifreigaben und FTP-Webdienste, zu definieren und miteinander zu verbinden. Der nächste Schritt besteht darin, die Daten bei Bedarf an einem zentralen Ort zur nachfolgenden Verarbeitung zu erfassen.
Transformieren und Erweitern
Computedienste wie Databricks und Machine Learning können genutzt werden, um transformierte Daten gemäß einem verwaltbaren und kontrollierten Zeitplan vorzubereiten oder zu erzeugen, um Produktionsumgebungen mit bereinigten und transformierten Daten zu versorgen. In einigen Fällen können Sie die Quelldaten sogar mit zusätzlichen Daten anreichern, um die Analyse zu unterstützen, oder sie durch einen Normalisierungsprozess konsolidieren, um sie beispielsweise in einem Machine Learning-Experiment zu verwenden.
Veröffentlichen
Nachdem nun als Ergebnis der Transformations- und Anreicherungsphase die Rohdaten in einem für Unternehmen nutzbaren Format vorliegen, können Sie die Daten in Azure Data Warehouse, Azure SQL-Datenbank, Azure CosmosDB oder in eine andere Analyse-Engine laden, auf die Ihre Benutzer in ihren Business Intelligence-Tools verweisen können.
Überwachen
Azure Data Factory verfügt über integrierte Unterstützung für die Pipelineüberwachung mittels Azure Monitor, API, PowerShell, Azure Monitor-Protokollen und Integritätsbereichen im Azure-Portal, um die geplanten Aktivitäten und Pipelines auf Erfolgs- und Fehlerraten zu überwachen.