Erfassen geänderter Daten mit Schemaentwicklung aus Azure SQL-Datenbank in einer Deltasenke unter Verwendung einer Change Data Capture-Ressource
GILT FÜR: Azure Data Factory Azure Synapse Analytics
Tipp
Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!
In diesem Artikel verwenden Sie die Benutzeroberfläche von Azure Data Factory, um eine CDC-Ressource (Change Data Capture) zu erstellen. Die Ressource erfasst geänderte Daten aus einer Azure SQL-Datenbank-Quelle und fügt sie in Echtzeit in Azure Data Lake Storage Gen2 hinzu. Diese Aktivität zeigt die Unterstützung der Schemaentwicklung mithilfe einer CDC-Ressource zwischen Quelle und Senke.
In diesem Artikel werden folgende Vorgehensweisen behandelt:
- Erstellen einer CDC-Ressource
- Vornehmen dynamischer Schemaänderungen an der Quelltabelle
- Überprüfen von Schemaänderungen an der Deltazielsenke
Sie können das Konfigurationsmuster in diesem Artikel ändern und erweitern.
Voraussetzungen
Bevor Sie mit den Verfahren in diesem Artikel beginnen, stellen Sie sicher, dass Sie über folgende Ressourcen verfügen:
- Azure-Abonnement. Erstellen Sie ein kostenloses Azure-Konto, falls Sie nicht über ein Azure-Abonnement verfügen.
- SQL-Datenbank. Sie verwenden Azure SQL-Datenbank als Quelldatenspeicher. Wenn Sie keine SQL-Datenbank besitzen, erstellen Sie eine im Azure-Portal.
- Speicherkonto: Sie verwenden eine in Azure Data Lake Storage Gen2 gespeicherte Delta Lake-Instanz als Zieldatenspeicher. Wenn Sie kein Speicherkonto besitzen, finden Sie unter Erstellen eines Speicherkontos die Schritte zum Erstellen eines solchen Kontos.
Erstellen eines CDC-Artefakts
Navigieren Sie in Ihrer Data Factory zum Bereich Autor. Unter Pipelines wird ein neues Artefakt der obersten Ebene mit dem Namen Change Data Capture (Vorschau) angezeigt.
Zeigen Sie auf Change Data Capture (Vorschau), bis drei Punkte angezeigt werden. Wählen Sie dann Change Data Capture-Aktionen (Vorschau) aus.
Wählen Sie Neues CDC (Vorschau) aus. Dadurch wird ein Flyout geöffnet, um mit dem geführten Prozess zu beginnen.
Sie werden aufgefordert, Ihre CDC-Ressource zu benennen. Standardmäßig lautet der Name „adfcdc“ mit einer Zahl, die um 1 erhöht wird. Sie können diesen Standardnamen durch einen von Ihnen ausgewählten Namen ersetzen.
Verwenden Sie die Dropdownliste, um Ihre Datenquelle auszuwählen. Wählen Sie in diesem Artikel Azure SQL-Datenbank aus.
Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.
Nachdem Sie einen verknüpften Dienst ausgewählt haben, werden Sie zum Auswählen von Quelltabellen aufgefordert. Verwenden Sie die Kontrollkästchen, um die Quelltabellen auszuwählen, und wählen Sie dann mithilfe der Dropdownliste den Wert für Inkrementelle Spalte aus.
Der Bereich listet nur Tabellen auf, die unterstützte Datentypen für inkrementelle Spalten enthalten.
Hinweis
Um CDC mit Schemaentwicklung in einer Azure SQL-Datenbank-Quelle zu aktivieren, wählen Sie Tabellen basierend auf Wasserzeichenspalten anstelle von Tabellen mit nativer SQL CDC-Aktivierung aus.
Nachdem Sie die Quelltabellen ausgewählt haben, wählen Sie Weiter aus, um Ihr Datenziel festzulegen.
Wählen Sie mithilfe der Dropdownliste einen Wert für Zieltyp aus. Wählen Sie in diesem Artikel Delta aus.
Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.
Wählen Sie Ihren Zieldatenordner aus. Sie können Folgendes verwenden:
- Sie können die Schaltfläche Durchsuchen unter Zielbasispfad verwenden, mit der Sie den Suchpfad für alle neuen Tabellen automatisch auffüllen können, die für die Quelle ausgewählt sind.
- Oder Sie können die Schaltfläche Durchsuchen außerhalb auswählen, um den Ordnerpfad einzeln auszuwählen.
Nachdem Sie einen Ordnerpfad ausgewählt haben, wählen Sie die Schaltfläche Weiter aus.
Eine neue Registerkarte zum Erfassen von Änderungsdaten wird angezeigt. Diese Registerkarte ist die CDC Studio-Instanz, in der Sie Ihre neue Ressource konfigurieren können.
Eine neue Zuordnung wird automatisch für Sie erstellt. Sie können die Auswahl für Quelltabelle und Zieltabelle Ihrer Zuordnung mithilfe der Dropdownlisten aktualisieren.
Nachdem Sie Ihre Tabellen ausgewählt haben, werden deren Spalten standardmäßig zugeordnet, wobei die Umschaltfläche Automatische Zuordnung aktiviert ist. Die automatische Zuordnung ordnet die Spalten in der Senke automatisch nach Namen zu, übernimmt neue Spaltenänderungen, wenn sich das Quellschema weiterentwickelt, und überträgt diese Informationen an die unterstützten Senkentypen.
Hinweis
Die Schemaentwicklung funktioniert nur, wenn die Umschaltfläche Automatische Zuordnung aktiviert ist. Wenn Sie wissen möchten, wie Sie Spaltenzuordnungen bearbeiten oder Transformationen einschließen, lesen Sie die Informationen unter Erfassen geänderter Daten mit einer Change Data Capture-Ressource.
Wählen Sie den Link Schlüssel und dann die Spalte Schlüssel aus, die zum Nachverfolgen der Löschvorgänge verwendet werden soll.
Geben Sie nach Abschluss der Zuordnungen mithilfe der Schaltfläche Wartezeit festlegen die CDC-Wartezeit an.
Wählen Sie die Wartezeit Ihrer CDC-Instanz aus, und wählen Sie dann Übernehmen aus, um die Änderungen vorzunehmen.
Standardmäßig ist die Wartezeit auf 15 Minuten festgelegt. Im Beispiel in diesem Artikel wird die Option Echtzeit für die Wartezeit verwendet. Mit der Wartezeit „Echtzeit“ werden kontinuierlich Änderungen in Ihren Quelldaten in einem Intervall von weniger als einer Minute erfasst.
Bei anderen Wartezeiten (beispielsweise bei Auswahl von 15 Minuten) verarbeitet Change Data Capture Ihre Quelldaten und erfasst alle geänderten Daten seit dem Zeitpunkt der letzten Verarbeitung.
Nachdem Sie Ihre CDC-Instanz konfiguriert haben, wählen Sie Alle veröffentlichen aus, um Ihre Änderungen zu veröffentlichen.
Hinweis
Wenn Sie Ihre Änderungen nicht veröffentlichen, können Sie die CDC-Ressource nicht starten. Die Schaltfläche Starten im nächsten Schritt ist nicht verfügbar.
Wählen Sie Starten aus, um mit der Ausführung von Change Data Capture zu beginnen.
Nachdem Change Data Capture nun ausgeführt wird, haben Sie folgende Möglichkeiten:
Verwenden Sie die Überwachungsseite, um zu sehen, wie viele Änderungen (Einfügen, Aktualisieren oder Löschen) gelesen und geschrieben wurden, und weitere Diagnoseinformationen anzuzeigen.
Überprüfen Sie, ob die Änderungsdaten in der in Azure Data Lake Storage Gen2 gespeicherten Delta Lake-Instanz im Delta-Format erfasst wurden.
Überprüfen Sie das Schema der eingegangenen Änderungsdaten.
Vornehmen dynamischer Änderungen auf Schemaebene an den Quelltabellen
Fügen Sie der Quelltabelle eine neue Spalte vom Typ PersonalEmail hinzu, indem Sie die T-SQL-Anweisung
ALTER TABLE
verwenden, wie im folgenden Beispiel gezeigt:Überprüfen Sie, ob die neue Spalte PersonalEmail in der vorhandenen Tabelle angezeigt wird.
Überprüfen von Schemaänderungen an der Deltasenke
Vergewissern Sie sich, dass die neue Spalte PersonalEmail in der Deltasenke angezeigt wird. Sie wissen nun, dass Änderungsdaten mit Schemaänderungen am Ziel angekommen sind.