Inkrementelles Laden von Daten aus einem Quelldatenspeicher in einen Zieldatenspeicher
GILT FÜR: Azure Data Factory Azure Synapse Analytics
Tipp
Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!
In einer Datenintegrationslösung ist das inkrementelle Laden (oder Deltaladen) von Daten nach einem anfänglichen vollständigen Ladevorgang ein häufig verwendetes Szenario. In den Tutorials dieses Abschnitts werden verschiedene Möglichkeiten zum inkrementellen Laden von Daten mit Azure Data Factory gezeigt.
Laden von Deltadaten aus der Datenbank mit einem Grenzwert
In diesem Fall definieren Sie einen Grenzwert (Englisch: Watermark) in Ihrer Quelldatenbank. Der Grenzwert ist hier eine Spalte, die den Zeitstempel der letzten Aktualisierung oder einen Inkrementierungsschlüssel enthält. Mit einer Lösung für das Deltaladen werden die geänderten Daten geladen, die zwischen einem alten und einem neuen Grenzwert liegen. Der Workflow für diesen Ansatz ist im folgenden Diagramm dargestellt:
Die folgenden Tutorials enthalten Schritt-für-Schritt-Anleitungen:
- Inkrementelles Kopieren von Daten aus einer Tabelle in Azure SQL-Datenbank in Azure Blob Storage
- Inkrementelles Kopieren von Daten aus mehreren Tabellen einer SQL Server-Instanz in Azure SQL-Datenbank
Informationen zu Vorlagen finden Sie im folgenden Artikel:
Laden von Deltadaten aus SQL-Datenbank unter Verwendung der Technologie für die Änderungsnachverfolgung
Die Technologie für die Änderungsnachverfolgung ist eine einfache Lösung in SQL Server und Azure SQL-Datenbank, die über einen effizienten Mechanismus für die Änderungsnachverfolgung für Anwendungen enthält. Hiermit kann eine Anwendung auf einfache Weise Daten identifizieren, die eingefügt, aktualisiert oder gelöscht wurden.
Der Workflow für diesen Ansatz ist im folgenden Diagramm dargestellt:
Das folgende Tutorial enthält eine Schritt-für-Schritt-Anleitung:
Ausschließliches Laden neuer und geänderter Dateien unter Verwendung von „LastModifiedDate“
Sie können die neuen und geänderten Dateien nur kopieren, indem Sie „LastModifiedDate“ für den Zielspeicher verwenden. ADF überprüft alle Dateien aus dem Quellspeicher, wendet den Filter auf deren „LastModifiedDate“ an und kopiert nur die Dateien in den Zielspeicher, die neu sind oder seit dem letzten Mal aktualisiert wurden. Beachten Sie bitte Folgendes: Wenn Sie von ADF große Mengen von Dateien überprüfen lassen, aber nur wenige Dateien in das Ziel kopieren, dauert dies aufgrund des Überprüfungsvorgangs weiterhin lange.
Das folgende Tutorial enthält eine Schritt-für-Schritt-Anleitung:
- Incrementally copy new and changed files based on LastModifiedDate by using the Copy Data tool (Inkrementelles Kopieren neuer und geänderter Dateien auf der Grundlage von „LastModifiedDate“ mithilfe des Tools zum Kopieren von Daten)
Informationen zu Vorlagen finden Sie im folgenden Artikel:
Ausschließliches Laden neuer Dateien unter Verwendung zeitpartitionierter Ordner- oder Dateinamen
Sie können den Kopiervorgang auf neue Dateien beschränken, wenn Datei- oder Ordnernamen Zeitangaben zur zeitlichen Partitionierung enthalten (Beispiel: /jjjj/mm/tt/Datei.csv). Dies ist der leistungsfähigste Ansatz für inkrementelles Laden neuer Dateien.
Das folgende Tutorial enthält eine Schritt-für-Schritt-Anleitung:
- Incrementally copy new files based on time partitioned file name by using the Copy Data tool (Inkrementelles Kopieren neuer Dateien auf der Grundlage zeitpartitionierter Dateinamen mithilfe des Tools zum Kopieren von Daten)
Zugehöriger Inhalt
Fahren Sie mit dem folgenden Tutorial fort: