Freigeben über


Erfassen geänderter Daten aus Azure Data Lake Storage Gen2 in Azure SQL-Datenbank mithilfe einer Change Data Capture-Ressource

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

In diesem Artikel verwenden Sie die Benutzeroberfläche von Azure Data Factory, um eine CDC-Ressource (Change Data Capture) zu erstellen. Die Ressource erfasst geänderte Daten aus einer Azure Data Lake Storage Gen2-Quelle und fügt sie in Echtzeit Azure SQL-Datenbank hinzu.

In diesem Artikel werden folgende Vorgehensweisen behandelt:

  • Erstellen einer CDC-Ressource
  • Überwachen der CDC-Aktivität

Sie können das Konfigurationsmuster in diesem Artikel ändern und erweitern.

Voraussetzungen

Bevor Sie mit den Verfahren in diesem Artikel beginnen, stellen Sie sicher, dass Sie über folgende Ressourcen verfügen:

  • Azure-Abonnement. Erstellen Sie ein kostenloses Azure-Konto, falls Sie nicht über ein Azure-Abonnement verfügen.
  • SQL-Datenbank. Sie verwenden Azure SQL-Datenbank als Quelldatenspeicher. Wenn Sie keine SQL-Datenbank besitzen, erstellen Sie eine im Azure-Portal.
  • Speicherkonto: Sie verwenden eine in Azure Data Lake Storage Gen2 gespeicherte Delta Lake-Instanz als Zieldatenspeicher. Wenn Sie kein Speicherkonto besitzen, finden Sie unter Erstellen eines Speicherkontos die Schritte zum Erstellen eines solchen Kontos.

Erstellen eines CDC-Artefakts

  1. Navigieren Sie in Ihrer Data Factory zum Bereich Autor. Unter Pipelines wird ein neues Artefakt der obersten Ebene mit dem Namen Change Data Capture (Vorschau) angezeigt.

    Screenshot: Neues Artefakt der obersten Ebene für Change Data Capture im Bereich mit Factory-Ressourcen

  2. Zeigen Sie auf Change Data Capture (Vorschau), bis drei Punkte angezeigt werden. Wählen Sie dann Change Data Capture-Aktionen (Vorschau) aus.

    Screenshot: Schaltfläche für Change Data Capture-Aktionen, die über dem neuen Artefakt der obersten Ebene angezeigt wird

  3. Wählen Sie Neues CDC (Vorschau) aus. Dadurch wird ein Flyout geöffnet, um mit dem geführten Prozess zu beginnen.

    Screenshot einer Liste von Change Data Capture-Aktionen

  4. Sie werden aufgefordert, Ihre CDC-Ressource zu benennen. Standardmäßig lautet der Name „adfcdc“ mit einer Zahl, die um 1 erhöht wird. Sie können diesen Standardnamen durch einen von Ihnen ausgewählten Namen ersetzen.

    Screenshot des Textfelds zum Aktualisieren des Ressourcennamens

  5. Verwenden Sie die Dropdownliste, um Ihre Datenquelle auszuwählen. Wählen Sie in diesem Artikel DelimitedText aus.

    Screenshot des Flyouts für den geführten Prozess mit Quelloptionen in einer Dropdownliste

  6. Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.

    Screenshot des Felds zum Auswählen oder Erstellen eines verknüpften Diensts

  7. Verwenden Sie den Bereich Quelleinstellungen, um optional erweiterte Quellkonfigurationen festzulegen, einschließlich Spalten- und Zeilentrennzeichen.

    Screenshot der erweiterten Quelleinstelllungen zum Festlegen von Trennzeichen

    Wenn Sie diese Quelleinstellungen nicht manuell bearbeiten, werden sie auf die Standardwerte festgelegt.

  8. Verwenden Sie die Schaltfläche Durchsuchen, um Ihren Quelldatenordner auszuwählen.

    Screenshot eines Ordnersymbols zum Suchen nach einem Ordnerpfad

  9. Nachdem Sie einen Ordnerpfad ausgewählt haben, wählen Sie Weiter aus, um Ihr Datenziel festzulegen.

    Screenshot der Schaltfläche „Weiter“ im geführten Prozess zum Auswählen von Datenzielen

    Mit der Plusschaltfläche (+) können Sie mehrere Quellordner hinzufügen. Die anderen Quellen müssen ebenfalls denselben verknüpften Dienst verwenden, den Sie bereits ausgewählt haben.

  10. Wählen Sie mithilfe der Dropdownliste einen Wert für Zieltyp aus. Wählen Sie in diesem Artikel Azure SQL-Datenbank aus.

    Screenshot: Dropdownmenü mit allen Datenzieltypen

  11. Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.

    Screenshot des Felds zum Auswählen oder Erstellen eines verknüpften Diensts für Ihr Datenziel

  12. Unter Zieltabellen können Sie eine neue Zieltabelle erstellen oder eine vorhandene Tabelle auswählen:

    • Um eine Zieltabelle zu erstellen, wählen Sie die Registerkarte Neue Entitäten und dann Neue Tabellen bearbeiten aus.

      Screenshot der Registerkarte zum Erstellen neuer Tabellen für Ihr Ziel

    • Um eine vorhandene Tabelle auszuwählen, wählen Sie die Registerkarte Vorhandene Entitäten aus, und verwenden Sie dann das Kontrollkästchen, um eine Tabelle auszuwählen. Über die Schaltfläche Vorschau können Sie Ihre Tabellendaten anzeigen.

      Screenshot: Registerkarte zum Auswählen von Tabellen für Ihr Ziel

    Wenn vorhandene Tabellen am Ziel übereinstimmende Namen aufweisen, werden sie standardmäßig unter Vorhandene Entitäten ausgewählt. Andernfalls werden neue Tabellen mit übereinstimmenden Namen unter Neue Entitäten erstellt. Darüber hinaus können Sie neue Tabellen über die Schaltfläche Neue Tabellen bearbeiten bearbeiten.

  13. Sie können die Kontrollkästchen verwenden, um mehrere Zieltabellen aus Ihrer SQL-Datenbank auszuwählen. Nachdem Sie die Auswahl der Zieltabellen abgeschlossen haben, wählen Sie Weiter aus.

    Screenshot der Schaltfläche „Weiter“ im geführten Prozess zum Fortfahren mit dem nächsten Schritt

  14. Eine neue Registerkarte zum Erfassen von Änderungsdaten wird angezeigt. Diese Registerkarte ist die CDC Studio-Instanz, in der Sie Ihre neue Ressource konfigurieren können.

    Screenshot von Change Data Capture Studio

    Eine neue Zuordnung wird automatisch für Sie erstellt. Sie können die Auswahl für Quelltabelle und Zieltabelle Ihrer Zuordnung mithilfe der Dropdownlisten aktualisieren.

    Screenshot der Zuordnung der Quelle zum Ziel in Change Data Capture Studio

  15. Nachdem Sie Ihre Tabellen ausgewählt haben, werden deren Spalten standardmäßig zugeordnet, wobei die Umschaltfläche Automatische Zuordnung aktiviert ist. Die automatische Zuordnung ordnet die Spalten in der Senke automatisch nach Namen zu, übernimmt neue Spaltenänderungen, wenn sich das Quellschema weiterentwickelt, und überträgt diese Informationen an die unterstützten Senkentypen.

    Wenn Sie Automatische Zuordnung verwenden und keine Spaltenzuordnungen ändern möchten, fahren Sie direkt mit Schritt 18 fort.

    Screenshot: Aktivierte Umschaltfläche für automatische Zuordnung

    Wenn Sie die Spaltenzuordnungen aktivieren möchten, wählen Sie die Zuordnungen aus, und deaktivieren Sie die Umschaltfläche Automatische Zuordnung. Wählen Sie dann die Schaltfläche Spaltenzuordnungen aus, um die Zuordnungen anzuzeigen.

    Screenshot: Zuordnungsauswahl, deaktivierte Umschaltfläche für automatische Zuordnung und Schaltfläche für Spaltenzuordnungen

    Sie können jederzeit zur automatischen Zuordnung zurückkehren, indem Sie die Umschaltfläche Automatische Zuordnung aktivieren.

  16. Zeigen Sie Ihre Spaltenzuordnungen an. Verwenden Sie die Dropdownlisten, um Ihre Spaltenzuordnungen für Zuordnungsmethode, Quellspalte und Zielspalte zu bearbeiten.

    Screenshot: Seite zum Bearbeiten von Spaltenzuordnungen

    Auf der Seite haben Sie folgende Möglichkeiten:

    • Fügen Sie mithilfe der Schaltfläche Neue Zuordnung weitere Spaltenzuordnungen hinzu. Verwenden Sie die Dropdownlisten, um eine Auswahl für Zuordnungsmethode, Quellspalte und Zielspalte zu treffen.
    • Wenn Sie den Löschvorgang für unterstützte Senkentypen nachverfolgen möchten, wählen Sie die Spalte Schlüssel aus.
    • Wählen Sie die Schaltfläche Aktualisieren unter Datenvorschau aus, um zu visualisieren, wie die Daten im Ziel aussehen.

    Screenshot: Schaltfläche zum Hinzufügen von Spaltenzuordnungen, Dropdownliste für Zuordnungsmethoden, Spalte „Schlüssel“ und Schaltfläche „Aktualisieren“

  17. Wenn die Zuordnung fertig ist, wählen Sie die Pfeilschaltfläche aus, um zur CDC-Hauptcanvas zurückzukehren.

    Screenshot der Schaltfläche, um zur Seite für die Tabellenzuordnung zurückzukehren

  18. Sie können in einem einzelnen CDC-Artefakt mehrere Zuordnungen zwischen Quelle und Ziel hinzufügen. Verwenden Sie die Schaltfläche Bearbeiten, um weitere Datenquellen und Ziele hinzuzufügen. Wählen Sie dann Neue Zuordnung aus, und verwenden Sie die Dropdownlisten, um eine neue Quelle und ein neues Ziel festzulegen. Sie können Automatische Zuordnung für jede dieser Zuordnungen unabhängig aktivieren oder deaktivieren.

    Screenshot der Schaltfläche zum Hinzufügen neuer Quellen und der Schaltfläche zum Festlegen einer neuen Zuordnung von einer Quelle zu einem Ziel

  19. Geben Sie nach Abschluss der Zuordnungen mithilfe der Schaltfläche Wartezeit festlegen die CDC-Wartezeit an.

    Screenshot der Schaltfläche „Wartezeit festlegen“ am oberen Rand der Canvas

  20. Wählen Sie die Wartezeit Ihrer CDC-Instanz aus, und wählen Sie dann Übernehmen aus, um die Änderungen vorzunehmen.

    Standardmäßig ist die Wartezeit auf 15 Minuten festgelegt. Im Beispiel in diesem Artikel wird die Option Echtzeit für die Wartezeit verwendet. Mit der Wartezeit „Echtzeit“ werden kontinuierlich Änderungen in Ihren Quelldaten in einem Intervall von weniger als einer Minute erfasst.

    Bei anderen Wartezeiten (beispielsweise bei Auswahl von 15 Minuten) verarbeitet Change Data Capture Ihre Quelldaten und erfasst alle geänderten Daten seit dem Zeitpunkt der letzten Verarbeitung.

    Screenshot: Optionen zum Festlegen der Wartezeit

    Hinweis

    Wenn die Unterstützung auf die Streamingdatenintegration (Azure Event Hubs- und Kafka-Datenquellen) erweitert wird, wird die Wartezeit standardmäßig auf Echtzeit festgelegt.

  21. Nachdem Sie Ihre CDC-Instanz konfiguriert haben, wählen Sie Alle veröffentlichen aus, um Ihre Änderungen zu veröffentlichen.

    Screenshot der Schaltfläche „Veröffentlichen“ am oberen Rand der Canvas

    Hinweis

    Wenn Sie Ihre Änderungen nicht veröffentlichen, können Sie die CDC-Ressource nicht starten. Die Schaltfläche Starten im nächsten Schritt ist nicht verfügbar.

  22. Wählen Sie Starten aus, um mit der Ausführung von Change Data Capture zu beginnen.

    Screenshot der Schaltfläche „Starten“ am oberen Rand der Canvas

Überwachen Ihrer Change Data Capture-Instanz

  1. Öffnen Sie den Bereich Überwachen mit einer der folgenden Methoden:

    • Wählen Sie im Azure-Portal die Option Überwachen aus.

      Screenshot: Schaltfläche „Überwachen“ im Azure-Portal

    • Wählen Sie im CDC-Designer das Überwachungssymbol aus.

      Screenshot der Überwachungssymbol oben in der CDC-Canvas

  2. Wählen Sie Change Data Capture (Vorschau) aus, um Ihre CDC-Ressourcen anzuzeigen.

    Screenshot der Change Data Capture-Schaltfläche

    Im Bereich Change Data Capture werden die Informationen für Quelle, Ziel, Status und Zuletzt verarbeitete für Ihre Change Data Capture-Instanz angezeigt.

    Screenshot einer Übersichtsseite zur Überwachung von Change Data Capture

  3. Wählen Sie den Namen der CDC aus, um weitere Details anzuzeigen. Sie können sehen, wie viele Änderungen (Einfügen, Aktualisieren oder Löschen) gelesen und geschrieben wurden, und erhalten weitere Diagnoseinformationen.

    Screenshot der detaillierten Überwachung eines ausgewählten Change Data Capture

    Wenn Sie in Ihrer Change Data Capture-Instanz mehrere Zuordnungen eingerichtet haben, wird jede Zuordnung in einer anderen Farbe angezeigt. Wählen Sie den Balken aus, um spezifische Details für jede Zuordnung anzuzeigen, oder verwenden Sie die Diagnoseinformationen unten im Bereich.

    Screenshot der detaillierten Überwachungsinformationen einer Change Data Capture-Instanz mit mehreren Zuordnungen zwischen Quelle und Ziel

    Screenshot einer detaillierten Aufschlüsselung der einzelnen Zuordnungen im Change Data Capture-Artefakt