Gewijzigde gegevens vastleggen met schemaontwikkeling van Azure SQL Database naar een Delta-sink met behulp van een wijzigingsgegevensopnameresource
VAN TOEPASSING OP: Azure Data Factory
Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
In dit artikel gebruikt u de Gebruikersinterface van Azure Data Factory om een CDC-resource (Change Data Capture) te maken. De resource haalt gewijzigde gegevens op uit een Azure SQL Database-bron en voegt deze in realtime toe aan Delta Lake dat is opgeslagen in Azure Data Lake Storage Gen2. Deze activiteit toont de ondersteuning van de ontwikkeling van schema's met behulp van een CDC-resource tussen bron en sink.
In dit artikel leert u het volgende:
- Maak een CDC-resource.
- Breng dynamische schemawijzigingen aan in een brontabel.
- Valideer schemawijzigingen in de doel-Delta-sink.
U kunt het configuratiepatroon in dit artikel wijzigen en uitbreiden.
Vereisten
Voordat u begint met de procedures in dit artikel, moet u ervoor zorgen dat u over deze resources beschikt:
- Azure-abonnement. Als u geen Azure-abonnement hebt, maakt u een gratis Azure-account.
- SQL-database. U gebruikt Azure SQL Database als brongegevensarchief. Als u geen SQL-database hebt, maakt u er een in Azure Portal.
- Opslagaccount. U gebruikt Delta Lake die is opgeslagen in Azure Data Lake Storage Gen2 als doelgegevensarchief. Als u geen opslagaccount hebt, raadpleegt u Een opslagaccount maken voor de stappen om er een te maken.
Een CDC-artefact maken
Ga naar het deelvenster Auteur in uw data factory. Onder Pijplijnen wordt een nieuw artefact op het hoogste niveau met de naam Change Data Capture (preview) weergegeven.
Beweeg de muisaanwijzer over Change Data Capture (preview) totdat er drie puntjes worden weergegeven. Selecteer vervolgens Acties voor Het vastleggen van gegevens wijzigen (preview).
Selecteer Nieuw CDC (preview). Met deze stap opent u een flyout om het begeleide proces te starten.
U wordt gevraagd uw CDC-resource een naam te geven. De naam is standaard 'adfcdc' met een getal dat met 1 wordt verhoogd. U kunt deze standaardnaam vervangen door een naam die u kiest.
Gebruik de vervolgkeuzelijst om uw gegevensbron te kiezen. Voor dit artikel selecteert u Azure SQL Database.
U wordt gevraagd om een gekoppelde service te selecteren. Maak een nieuwe gekoppelde service of selecteer een bestaande service.
Nadat u een gekoppelde service hebt geselecteerd, wordt u gevraagd om brontabellen te selecteren. Gebruik de selectievakjes om de brontabellen te selecteren en selecteer vervolgens de incrementele kolomwaarde met behulp van de vervolgkeuzelijst.
In het deelvenster worden alleen tabellen weergegeven met ondersteunde incrementele kolomgegevenstypen.
Notitie
Als u CDC wilt inschakelen met schemaontwikkeling in een Azure SQL Database-bron, kiest u tabellen op basis van watermerkkolommen in plaats van tabellen die systeemeigen SQL CDC zijn ingeschakeld.
Nadat u de brontabellen hebt geselecteerd, selecteert u Doorgaan om het gegevensdoel in te stellen.
Selecteer een doeltypewaarde met behulp van de vervolgkeuzelijst. Voor dit artikel selecteert u Delta.
U wordt gevraagd om een gekoppelde service te selecteren. Maak een nieuwe gekoppelde service of selecteer een bestaande service.
Selecteer de doelgegevensmap. U kunt een van de volgende opties gebruiken:
- Met de knop Bladeren onder het basispad Doel kunt u het bladerpad automatisch vullen voor alle nieuwe tabellen die voor een bron zijn geselecteerd.
- De knop Bladeren buiten om het mappad afzonderlijk te selecteren.
Nadat u een mappad hebt geselecteerd, selecteert u de knop Doorgaan .
Er wordt een nieuw tabblad voor het vastleggen van wijzigingsgegevens weergegeven. Dit tabblad is de CDC Studio, waar u uw nieuwe resource kunt configureren.
Er wordt automatisch een nieuwe toewijzing voor u gemaakt. U kunt de selecties van de brontabel en doeltabel voor uw toewijzing bijwerken met behulp van de vervolgkeuzelijsten.
Nadat u de tabellen hebt geselecteerd, worden de bijbehorende kolommen standaard toegewezen met de wisselknop Voor automatisch toewijzen ingeschakeld. Automatisch toewijzen wijst de kolommen automatisch toe op naam in de sink, haalt nieuwe kolomwijzigingen op wanneer het bronschema zich ontwikkelt en verzendt deze informatie naar de ondersteunde sinktypen.
Notitie
Schemaontwikkeling werkt alleen wanneer de wisselknop voor automatisch toewijzen is ingeschakeld. Als u wilt weten hoe u kolomtoewijzingen bewerkt of transformaties opneemt, raadpleegt u Gewijzigde gegevens vastleggen met een resource voor het vastleggen van wijzigingen.
Selecteer de koppeling Sleutels en selecteer vervolgens de kolom Sleutels die moet worden gebruikt voor het bijhouden van de verwijderbewerkingen.
Nadat uw toewijzingen zijn voltooid, stelt u de CDC-latentie in met behulp van de knop Latentie instellen.
Selecteer de latentie van uw CDC en selecteer Vervolgens Toepassen om de wijzigingen aan te brengen.
Latentie is standaard ingesteld op 15 minuten. In het voorbeeld in dit artikel wordt de realtime-optie voor latentie gebruikt. Realtime latentie haalt voortdurend wijzigingen in uw brongegevens op in intervallen van minder dan 1 minuut.
Voor andere latenties (bijvoorbeeld als u 15 minuten selecteert), worden uw brongegevens verwerkt en worden de gewijzigde gegevens sinds de laatste verwerkte tijd opgehaald.
Nadat u klaar bent met het configureren van uw CDC, selecteert u Alles publiceren om uw wijzigingen te publiceren.
Notitie
Als u uw wijzigingen niet publiceert, kunt u uw CDC-resource niet starten. De knop Start in de volgende stap is niet beschikbaar.
Selecteer Start om uw wijzigingsgegevensopname uit te voeren.
Nu uw wijzigingsgegevens vastleggen wordt uitgevoerd, kunt u het volgende doen:
Gebruik de controlepagina om te zien hoeveel wijzigingen (invoegen, bijwerken of verwijderen) zijn gelezen en geschreven, samen met andere diagnostische gegevens.
Controleer of de wijzigingsgegevens zijn aangekomen in Delta Lake die zijn opgeslagen in Azure Data Lake Storage Gen2, in Delta-indeling.
Valideer het schema van de wijzigingsgegevens die zijn aangekomen.
Dynamische wijzigingen op schemaniveau aanbrengen in de brontabellen
Voeg een nieuwe Kolom PersonalEmail toe aan de brontabel met behulp van een
ALTER TABLE
T-SQL-instructie, zoals wordt weergegeven in het volgende voorbeeld.Controleer of de nieuwe kolom PersonalEmail wordt weergegeven in de bestaande tabel.
Schemawijzigingen valideren in de Delta-sink
Controleer of de nieuwe kolom PersonalEmail wordt weergegeven in de Delta-sink. U weet nu dat wijzigingsgegevens met schemawijzigingen zijn aangekomen bij het doel.