Freigeben über


Erfassen geänderter Daten mit Schemaentwicklung aus Azure SQL-Datenbank in einer Deltasenke unter Verwendung einer Change Data Capture-Ressource

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

In diesem Artikel verwenden Sie die Benutzeroberfläche von Azure Data Factory, um eine CDC-Ressource (Change Data Capture) zu erstellen. Die Ressource erfasst geänderte Daten aus einer Azure SQL-Datenbank-Quelle und fügt sie in Echtzeit in Azure Data Lake Storage Gen2 hinzu. Diese Aktivität zeigt die Unterstützung der Schemaentwicklung mithilfe einer CDC-Ressource zwischen Quelle und Senke.

In diesem Artikel werden folgende Vorgehensweisen behandelt:

  • Erstellen einer CDC-Ressource
  • Vornehmen dynamischer Schemaänderungen an der Quelltabelle
  • Überprüfen von Schemaänderungen an der Deltazielsenke

Sie können das Konfigurationsmuster in diesem Artikel ändern und erweitern.

Voraussetzungen

Bevor Sie mit den Verfahren in diesem Artikel beginnen, stellen Sie sicher, dass Sie über folgende Ressourcen verfügen:

  • Azure-Abonnement. Erstellen Sie ein kostenloses Azure-Konto, falls Sie nicht über ein Azure-Abonnement verfügen.
  • SQL-Datenbank. Sie verwenden Azure SQL-Datenbank als Quelldatenspeicher. Wenn Sie keine SQL-Datenbank besitzen, erstellen Sie eine im Azure-Portal.
  • Speicherkonto: Sie verwenden eine in Azure Data Lake Storage Gen2 gespeicherte Delta Lake-Instanz als Zieldatenspeicher. Wenn Sie kein Speicherkonto besitzen, finden Sie unter Erstellen eines Speicherkontos die Schritte zum Erstellen eines solchen Kontos.

Erstellen eines CDC-Artefakts

  1. Navigieren Sie in Ihrer Data Factory zum Bereich Autor. Unter Pipelines wird ein neues Artefakt der obersten Ebene mit dem Namen Change Data Capture (Vorschau) angezeigt.

    Screenshot: Neues Artefakt der obersten Ebene für Change Data Capture im Bereich mit Factory-Ressourcen

  2. Zeigen Sie auf Change Data Capture (Vorschau), bis drei Punkte angezeigt werden. Wählen Sie dann Change Data Capture-Aktionen (Vorschau) aus.

    Screenshot: Schaltfläche für Change Data Capture-Aktionen, die über dem neuen Artefakt der obersten Ebene angezeigt wird

  3. Wählen Sie Neues CDC (Vorschau) aus. Dadurch wird ein Flyout geöffnet, um mit dem geführten Prozess zu beginnen.

    Screenshot einer Liste von Change Data Capture-Aktionen

  4. Sie werden aufgefordert, Ihre CDC-Ressource zu benennen. Standardmäßig lautet der Name „adfcdc“ mit einer Zahl, die um 1 erhöht wird. Sie können diesen Standardnamen durch einen von Ihnen ausgewählten Namen ersetzen.

    Screenshot des Textfelds zum Aktualisieren des Ressourcennamens

  5. Verwenden Sie die Dropdownliste, um Ihre Datenquelle auszuwählen. Wählen Sie in diesem Artikel Azure SQL-Datenbank aus.

    Screenshot des Flyouts für den geführten Prozess mit Quelloptionen in einer Dropdownliste

  6. Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.

    Screenshot des Felds zum Auswählen oder Erstellen eines verknüpften Diensts

  7. Nachdem Sie einen verknüpften Dienst ausgewählt haben, werden Sie zum Auswählen von Quelltabellen aufgefordert. Verwenden Sie die Kontrollkästchen, um die Quelltabellen auszuwählen, und wählen Sie dann mithilfe der Dropdownliste den Wert für Inkrementelle Spalte aus.

    Screenshot: Auswahl einer Quelltabelle und einer inkrementellen Spalte

    Der Bereich listet nur Tabellen auf, die unterstützte Datentypen für inkrementelle Spalten enthalten.

    Hinweis

    Um CDC mit Schemaentwicklung in einer Azure SQL-Datenbank-Quelle zu aktivieren, wählen Sie Tabellen basierend auf Wasserzeichenspalten anstelle von Tabellen mit nativer SQL CDC-Aktivierung aus.

  8. Nachdem Sie die Quelltabellen ausgewählt haben, wählen Sie Weiter aus, um Ihr Datenziel festzulegen.

    Screenshot der Schaltfläche „Weiter“ im geführten Prozess zum Auswählen eines Datenziels

  9. Wählen Sie mithilfe der Dropdownliste einen Wert für Zieltyp aus. Wählen Sie in diesem Artikel Delta aus.

    Screenshot: Dropdownmenü mit allen Datenzieltypen

  10. Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.

    Screenshot des Felds zum Auswählen oder Erstellen eines verknüpften Diensts für Ihr Datenziel

  11. Wählen Sie Ihren Zieldatenordner aus. Sie können Folgendes verwenden:

    • Sie können die Schaltfläche Durchsuchen unter Zielbasispfad verwenden, mit der Sie den Suchpfad für alle neuen Tabellen automatisch auffüllen können, die für die Quelle ausgewählt sind.
    • Oder Sie können die Schaltfläche Durchsuchen außerhalb auswählen, um den Ordnerpfad einzeln auszuwählen.

    Screenshot eines Ordnersymbols zum Suchen nach einem Ordnerpfad

  12. Nachdem Sie einen Ordnerpfad ausgewählt haben, wählen Sie die Schaltfläche Weiter aus.

    Screenshot der Schaltfläche „Weiter“ im geführten Prozess zum Fortfahren mit dem nächsten Schritt

  13. Eine neue Registerkarte zum Erfassen von Änderungsdaten wird angezeigt. Diese Registerkarte ist die CDC Studio-Instanz, in der Sie Ihre neue Ressource konfigurieren können.

    Screenshot von Change Data Capture Studio

    Eine neue Zuordnung wird automatisch für Sie erstellt. Sie können die Auswahl für Quelltabelle und Zieltabelle Ihrer Zuordnung mithilfe der Dropdownlisten aktualisieren.

    Screenshot der Zuordnung der Quelle zum Ziel in Change Data Capture Studio

  14. Nachdem Sie Ihre Tabellen ausgewählt haben, werden deren Spalten standardmäßig zugeordnet, wobei die Umschaltfläche Automatische Zuordnung aktiviert ist. Die automatische Zuordnung ordnet die Spalten in der Senke automatisch nach Namen zu, übernimmt neue Spaltenänderungen, wenn sich das Quellschema weiterentwickelt, und überträgt diese Informationen an die unterstützten Senkentypen.

    Screenshot: Aktivierte Umschaltfläche für automatische Zuordnung

    Hinweis

    Die Schemaentwicklung funktioniert nur, wenn die Umschaltfläche Automatische Zuordnung aktiviert ist. Wenn Sie wissen möchten, wie Sie Spaltenzuordnungen bearbeiten oder Transformationen einschließen, lesen Sie die Informationen unter Erfassen geänderter Daten mit einer Change Data Capture-Ressource.

  15. Wählen Sie den Link Schlüssel und dann die Spalte Schlüssel aus, die zum Nachverfolgen der Löschvorgänge verwendet werden soll.

    Screenshot: Link zum Aktivieren der Auswahl der Spalte „Schlüssel“

    Screenshot: Auswählen der Spalte „Schlüssel“ für die ausgewählte Quelle

  16. Geben Sie nach Abschluss der Zuordnungen mithilfe der Schaltfläche Wartezeit festlegen die CDC-Wartezeit an.

    Screenshot der Schaltfläche „Wartezeit festlegen“ am oberen Rand der Canvas

  17. Wählen Sie die Wartezeit Ihrer CDC-Instanz aus, und wählen Sie dann Übernehmen aus, um die Änderungen vorzunehmen.

    Standardmäßig ist die Wartezeit auf 15 Minuten festgelegt. Im Beispiel in diesem Artikel wird die Option Echtzeit für die Wartezeit verwendet. Mit der Wartezeit „Echtzeit“ werden kontinuierlich Änderungen in Ihren Quelldaten in einem Intervall von weniger als einer Minute erfasst.

    Bei anderen Wartezeiten (beispielsweise bei Auswahl von 15 Minuten) verarbeitet Change Data Capture Ihre Quelldaten und erfasst alle geänderten Daten seit dem Zeitpunkt der letzten Verarbeitung.

    Screenshot: Optionen zum Festlegen der Wartezeit

  18. Nachdem Sie Ihre CDC-Instanz konfiguriert haben, wählen Sie Alle veröffentlichen aus, um Ihre Änderungen zu veröffentlichen.

    Screenshot der Schaltfläche „Veröffentlichen“ am oberen Rand der Canvas

    Hinweis

    Wenn Sie Ihre Änderungen nicht veröffentlichen, können Sie die CDC-Ressource nicht starten. Die Schaltfläche Starten im nächsten Schritt ist nicht verfügbar.

  19. Wählen Sie Starten aus, um mit der Ausführung von Change Data Capture zu beginnen.

    Screenshot der Schaltfläche „Starten“ am oberen Rand der Canvas

Nachdem Change Data Capture nun ausgeführt wird, haben Sie folgende Möglichkeiten:

  • Verwenden Sie die Überwachungsseite, um zu sehen, wie viele Änderungen (Einfügen, Aktualisieren oder Löschen) gelesen und geschrieben wurden, und weitere Diagnoseinformationen anzuzeigen.

    Screenshot: Überwachungsseite einer ausgewählten Change Data Capture-Ressource

    Screenshot: Überwachungsseite einer ausgewählten Change Data Capture-Ressource mit detaillierter Ansicht

  • Überprüfen Sie, ob die Änderungsdaten in der in Azure Data Lake Storage Gen2 gespeicherten Delta Lake-Instanz im Delta-Format erfasst wurden.

    Screenshot: Deltazielordner

  • Überprüfen Sie das Schema der eingegangenen Änderungsdaten.

    Screenshot einer Änderungsdatei

Vornehmen dynamischer Änderungen auf Schemaebene an den Quelltabellen

  1. Fügen Sie der Quelltabelle eine neue Spalte vom Typ PersonalEmail hinzu, indem Sie die T-SQL-Anweisung ALTER TABLE verwenden, wie im folgenden Beispiel gezeigt:

    Screenshot: Befehl „ALTER“ in Azure Data Studio

  2. Überprüfen Sie, ob die neue Spalte PersonalEmail in der vorhandenen Tabelle angezeigt wird.

    Screenshot: Neuer Tabellenentwurf mit hinzugefügter Spalte für „PersonalEmail“

Überprüfen von Schemaänderungen an der Deltasenke

Vergewissern Sie sich, dass die neue Spalte PersonalEmail in der Deltasenke angezeigt wird. Sie wissen nun, dass Änderungsdaten mit Schemaänderungen am Ziel angekommen sind.

Screenshot: Änderungsdatei mit Schemaänderung