Freigeben über


Erfassen geänderter Daten mit Schemaentwicklung aus Azure SQL-Datenbank in einer Deltasenke unter Verwendung einer Change Data Capture-Ressource

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

In diesem Artikel verwenden Sie die Benutzeroberfläche von Azure Data Factory, um eine CDC-Ressource (Change Data Capture) zu erstellen. Die Ressource erfasst geänderte Daten aus einer Azure SQL-Datenbank-Quelle und fügt sie in Echtzeit in Azure Data Lake Storage Gen2 hinzu. Diese Aktivität zeigt die Unterstützung der Schemaentwicklung mithilfe einer CDC-Ressource zwischen Quelle und Senke.

In diesem Artikel werden folgende Vorgehensweisen behandelt:

  • Erstellen einer CDC-Ressource
  • Vornehmen dynamischer Schemaänderungen an der Quelltabelle
  • Überprüfen von Schemaänderungen an der Deltazielsenke

Sie können das Konfigurationsmuster in diesem Artikel ändern und erweitern.

Voraussetzungen

Bevor Sie mit den Verfahren in diesem Artikel beginnen, stellen Sie sicher, dass Sie über folgende Ressourcen verfügen:

  • Azure-Abonnement. Erstellen Sie ein kostenloses Azure-Konto, falls Sie nicht über ein Azure-Abonnement verfügen.
  • SQL-Datenbank. Sie verwenden Azure SQL-Datenbank als Quelldatenspeicher. Wenn Sie keine SQL-Datenbank besitzen, erstellen Sie eine im Azure-Portal.
  • Speicherkonto: Sie verwenden eine in Azure Data Lake Storage Gen2 gespeicherte Delta Lake-Instanz als Zieldatenspeicher. Wenn Sie kein Speicherkonto besitzen, finden Sie unter Erstellen eines Speicherkontos die Schritte zum Erstellen eines solchen Kontos.

Erstellen eines CDC-Artefakts

  1. Navigieren Sie in Ihrer Data Factory zum Bereich Autor. Unter Pipelines wird ein neues Artefakt der obersten Ebene mit dem Namen Change Data Capture (Vorschau) angezeigt.

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Zeigen Sie auf Change Data Capture (Vorschau), bis drei Punkte angezeigt werden. Wählen Sie dann Change Data Capture-Aktionen (Vorschau) aus.

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Wählen Sie Neues CDC (Vorschau) aus. Dadurch wird ein Flyout geöffnet, um mit dem geführten Prozess zu beginnen.

    Screenshot of a list of change data capture actions.

  4. Sie werden aufgefordert, Ihre CDC-Ressource zu benennen. Standardmäßig lautet der Name „adfcdc“ mit einer Zahl, die um 1 erhöht wird. Sie können diesen Standardnamen durch einen von Ihnen ausgewählten Namen ersetzen.

    Screenshot of the text box to update the name of a resource.

  5. Verwenden Sie die Dropdownliste, um Ihre Datenquelle auszuwählen. Wählen Sie in diesem Artikel Azure SQL-Datenbank aus.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.

    Screenshot of the box to choose or create a linked service.

  7. Nachdem Sie einen verknüpften Dienst ausgewählt haben, werden Sie zum Auswählen von Quelltabellen aufgefordert. Verwenden Sie die Kontrollkästchen, um die Quelltabellen auszuwählen, und wählen Sie dann mithilfe der Dropdownliste den Wert für Inkrementelle Spalte aus.

    Screenshot that shows selection of a source table and an incremental column.

    Der Bereich listet nur Tabellen auf, die unterstützte Datentypen für inkrementelle Spalten enthalten.

    Hinweis

    Um CDC mit Schemaentwicklung in einer Azure SQL-Datenbank-Quelle zu aktivieren, wählen Sie Tabellen basierend auf Wasserzeichenspalten anstelle von Tabellen mit nativer SQL CDC-Aktivierung aus.

  8. Nachdem Sie die Quelltabellen ausgewählt haben, wählen Sie Weiter aus, um Ihr Datenziel festzulegen.

    Screenshot of the Continue button in the guided process to select a data target.

  9. Wählen Sie mithilfe der Dropdownliste einen Wert für Zieltyp aus. Wählen Sie in diesem Artikel Delta aus.

    Screenshot of a dropdown menu of all data target types.

  10. Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.

    Screenshot of the box to choose or create a linked service to your data target.

  11. Wählen Sie Ihren Zieldatenordner aus. Sie können Folgendes verwenden:

    • Sie können die Schaltfläche Durchsuchen unter Zielbasispfad verwenden, mit der Sie den Suchpfad für alle neuen Tabellen automatisch auffüllen können, die für die Quelle ausgewählt sind.
    • Oder Sie können die Schaltfläche Durchsuchen außerhalb auswählen, um den Ordnerpfad einzeln auszuwählen.

    Screenshot of a folder icon to browse for a folder path.

  12. Nachdem Sie einen Ordnerpfad ausgewählt haben, wählen Sie die Schaltfläche Weiter aus.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  13. Eine neue Registerkarte zum Erfassen von Änderungsdaten wird angezeigt. Diese Registerkarte ist die CDC Studio-Instanz, in der Sie Ihre neue Ressource konfigurieren können.

    Screenshot of the change data capture studio.

    Eine neue Zuordnung wird automatisch für Sie erstellt. Sie können die Auswahl für Quelltabelle und Zieltabelle Ihrer Zuordnung mithilfe der Dropdownlisten aktualisieren.

    Screenshot of the source-to-target mapping in the change data capture studio.

  14. Nachdem Sie Ihre Tabellen ausgewählt haben, werden deren Spalten standardmäßig zugeordnet, wobei die Umschaltfläche Automatische Zuordnung aktiviert ist. Die automatische Zuordnung ordnet die Spalten in der Senke automatisch nach Namen zu, übernimmt neue Spaltenänderungen, wenn sich das Quellschema weiterentwickelt, und überträgt diese Informationen an die unterstützten Senkentypen.

    Screenshot of the toggle for automatic mapping turned on.

    Hinweis

    Die Schemaentwicklung funktioniert nur, wenn die Umschaltfläche Automatische Zuordnung aktiviert ist. Wenn Sie wissen möchten, wie Sie Spaltenzuordnungen bearbeiten oder Transformationen einschließen, lesen Sie die Informationen unter Erfassen geänderter Daten mit einer Change Data Capture-Ressource.

  15. Wählen Sie den Link Schlüssel und dann die Spalte Schlüssel aus, die zum Nachverfolgen der Löschvorgänge verwendet werden soll.

    Screenshot of the link to enable Keys column selection.

    Screenshot of selecting a Keys column for the selected source.

  16. Geben Sie nach Abschluss der Zuordnungen mithilfe der Schaltfläche Wartezeit festlegen die CDC-Wartezeit an.

    Screenshot of the Set Latency button at the top of the canvas.

  17. Wählen Sie die Wartezeit Ihrer CDC-Instanz aus, und wählen Sie dann Übernehmen aus, um die Änderungen vorzunehmen.

    Standardmäßig ist die Wartezeit auf 15 Minuten festgelegt. Im Beispiel in diesem Artikel wird die Option Echtzeit für die Wartezeit verwendet. Mit der Wartezeit „Echtzeit“ werden kontinuierlich Änderungen in Ihren Quelldaten in einem Intervall von weniger als einer Minute erfasst.

    Bei anderen Wartezeiten (beispielsweise bei Auswahl von 15 Minuten) verarbeitet Change Data Capture Ihre Quelldaten und erfasst alle geänderten Daten seit dem Zeitpunkt der letzten Verarbeitung.

    Screenshot of the options for setting latency.

  18. Nachdem Sie Ihre CDC-Instanz konfiguriert haben, wählen Sie Alle veröffentlichen aus, um Ihre Änderungen zu veröffentlichen.

    Screenshot of the publish button at the top of the canvas.

    Hinweis

    Wenn Sie Ihre Änderungen nicht veröffentlichen, können Sie die CDC-Ressource nicht starten. Die Schaltfläche Starten im nächsten Schritt ist nicht verfügbar.

  19. Wählen Sie Starten aus, um mit der Ausführung von Change Data Capture zu beginnen.

    Screenshot of the Start button at the top of the canvas.

Nachdem Change Data Capture nun ausgeführt wird, haben Sie folgende Möglichkeiten:

  • Verwenden Sie die Überwachungsseite, um zu sehen, wie viele Änderungen (Einfügen, Aktualisieren oder Löschen) gelesen und geschrieben wurden, und weitere Diagnoseinformationen anzuzeigen.

    Screenshot of the monitoring page of a selected change data capture.

    Screenshot of the monitoring page of a selected change data capture with a detailed view.

  • Überprüfen Sie, ob die Änderungsdaten in der in Azure Data Lake Storage Gen2 gespeicherten Delta Lake-Instanz im Delta-Format erfasst wurden.

    Screenshot of a target Delta folder.

  • Überprüfen Sie das Schema der eingegangenen Änderungsdaten.

    Screenshot of a Delta file.

Vornehmen dynamischer Änderungen auf Schemaebene an den Quelltabellen

  1. Fügen Sie der Quelltabelle eine neue Spalte vom Typ PersonalEmail hinzu, indem Sie die T-SQL-Anweisung ALTER TABLE verwenden, wie im folgenden Beispiel gezeigt:

    Screenshot of the ALTER command in Azure Data Studio.

  2. Überprüfen Sie, ob die neue Spalte PersonalEmail in der vorhandenen Tabelle angezeigt wird.

    Screenshot of a new table design with a column added for personal email.

Überprüfen von Schemaänderungen an der Deltasenke

Vergewissern Sie sich, dass die neue Spalte PersonalEmail in der Deltasenke angezeigt wird. Sie wissen nun, dass Änderungsdaten mit Schemaänderungen am Ziel angekommen sind.

Screenshot of a Delta file with a schema change.