Beschreiben von Datenintegrationsmustern
Microsoft Azure bietet eine Vielzahl von Datenplattformdiensten, mit denen Sie verschiedene Arten von Analysen durchführen können. Sei es eine deskriptive Analyselösung in einem Data Warehouse oder bis hin zu Predictive Analytics innerhalb von HDInsight, Azure Databricks oder Machine Learning Services. Es besteht Bedarf an einem Dienst, der sich um den wichtigen Aspekt der Datenintegration kümmert.
Bei der Datenintegration geht es zunächst um die Sammlung von Daten aus einer oder mehreren Quellen. Optional beinhaltet sie dann typischerweise einen Prozess, bei dem die Daten bereinigt und transformiert oder vielleicht mit zusätzlichen Daten ergänzt und aufbereitet werden. Schließlich werden die zusammengeführten Daten in einem Datenplattformdienst gespeichert, der die von Ihnen gewünschte Art von Analysen durchführt. Dieser Prozess kann von Azure Data Factory in einem Muster automatisiert werden, das als „Extrahieren, Transformieren und Laden“ (ETL) bekannt ist.
Extrahieren
Während der Extraktion definieren Data Engineers die Daten und ihre Quelle:
Definieren der Datenquelle: Bestimmen Sie Quelldetails wie die Ressourcengruppe und das Abonnement und Identitätsinformationen wie einen Schlüssel oder ein Geheimnis.
Definieren der Daten: Bestimmen Sie die zu extrahierenden Daten. Definieren Sie die Daten mithilfe einer Datenbankabfrage, mehreren Dateien oder einem Azure Blob Storage-Namen für Blobspeicher.
Transformieren
- Definieren der Datentransformation: Datentransformationsvorgänge können z.B. das Aufteilen, Kombinieren, Ableiten, Hinzufügen, Entfernen oder Pivotieren von Spalten umfassen. Ordnen Sie Felder zwischen der Datenquelle und dem Datenziel zu. Möglicherweise müssen Sie auch Daten aggregieren oder zusammenführen.
Laden
Definieren des Ziels: Bei Ladevorgängen können viele Azure-Ziele Daten im JSON-, Datei- oder Blobformat annehmen. Möglicherweise müssen Sie Code schreiben, um mit den Anwendungs-APIs interagieren zu können.
Azure Data Factory bietet eine integrierte Unterstützung für Azure Functions. Darüber hinaus werden viele Programmiersprachen wie Node.js, .NET, Python und Java unterstützt. Die Extensible Markup Language (XML) war in der Vergangenheit zwar weitverbreitet, doch mittlerweile sind die meisten Systeme zu JavaScript Object Notation (JSON) migriert, da dieses Format als teilweise strukturierter Datentyp deutlich flexibler ist.
Starten des Auftrags: Testen Sie den ETL-Auftrag in einer Entwicklungs- oder Testumgebung. Migrieren Sie den Auftrag dann in eine Produktionsumgebung, um das Produktionssystem zu laden.
Überwachen des Auftrags: ETL-Vorgänge können viele komplexe Vorgänge umfassen. Das Einrichten eines proaktiven und reaktionsfähigen Überwachungssystems kann bei Fehlern wichtige Informationen liefern. Richten Sie die Protokollierung entsprechend der verwendeten Technologie ein.
ETL-Tools
Für Datentechniker gibt es mehrere verfügbare Tools für ETL. Azure Data Factory bietet fast 100 Unternehmensconnectors und robuste Ressourcen, mit denen sowohl codefreie als auch codebasierte Benutzer ihre Datenverschiebungen und -transformationen durchführen können.
Die Entwicklung von ETL
Azure hat den Weg für Technologien geebnet, die nicht strukturierte Daten in unbegrenztem Umfang verarbeiten können. Diese Änderung hat zu einem Paradigmenwechsel für das Laden und Transformieren von Daten von ETL zu ELT (Extrahieren, Laden und Transformieren) geführt.
Der Vorteil von ELT liegt darin, dass Sie Daten in ihrem ursprünglichen Format (z.B. JSON; XML, PDF oder Bildformate) speichern können. In ELT definieren Sie die Struktur der Daten während der Transformationsphase, sodass Sie die Quelldaten in mehreren Downstreamsystemen verwenden können.
Bei einem ELT-Vorgang werden Daten extrahiert und in ihrem nativen Format geladen. Durch diese Änderung wird die Zeit für das Laden der Daten in ein Zielsystem verringert. Darüber hinaus wird der Ressourcenkonflikt in den Datenquellen eingeschränkt.
Die Schritte des ELT-Vorgangs gleichen denen des ETL-Vorgangs. Nur die Reihenfolge unterscheidet sich.
Ein weiterer Vorgang, der dem ELT-Vorgang ähnelt, ist der ELTL-Vorgang (Extrahieren, Laden, Transformieren und Laden). Der Unterschied beim ELTL-Vorgang besteht darin, dass das endgültige Laden in ein Zielsystem durchgeführt wird.
Es gibt zwei gängige Arten von Datenintegrationsmustern, die von Azure Data Factory unterstützt werden können.
Modernes Data Warehouse-Arbeitsauslastungen:
Ein „Modernes Data Warehouse“ ist ein zentralisierter Datenspeicher, der deskriptive Analyse- und Entscheidungsunterstützungsdienste in allen Bereichen eines Unternehmens über strukturierte, unstrukturierte oder Streamingdatenquellen bereitstellt. Daten fließen in regelmäßigen Abständen von vielen Transaktionssystemen, relationalen Datenbanken und anderen Datenquellen in das Warehouse. Die gespeicherten Daten werden zur Berichterstellung von Verlaufsanalysen und von Trendanalysen verwendet. Das Data Warehouse dient als zentrales Repository für viele Themenbereiche und enthält die „alleingültige Wahrheitsquelle“.
Azure Data Factory wird in der Regel verwendet, um den Prozess des Extrahierens, Transformierens und Ladens der Daten durch einen Batchprozess auf strukturierte und unstrukturierte Datenquellen zu automatisieren.
Erweiterte analytische Arbeitsauslastungen (Workloads)
Sie können erweiterte Analysen in Form von Predictive oder Preemptive Analytics unter Verwendung einer Reihe von Azure-Datenplattformdiensten durchführen. Azure Data Factory sorgt für die Integration von Quellsystemen in einen Data Lake Store und kann Computeressourcen wie Azure Databricks oder HDInsight initiieren, um die Daten zur Durchführung der erweiterten Analysen zu nutzen.