Samla in ändrade data från Azure Data Lake Storage Gen2 till Azure SQL Database med hjälp av en resurs för insamling av ändringsdata
GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics
Dricks
Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!
I den här artikeln använder du Användargränssnittet för Azure Data Factory för att skapa en CDC-resurs (Change Data Capture). Resursen hämtar ändrade data från en Azure Data Lake Storage Gen2-källa och lägger till dem i Azure SQL Database i realtid.
I den här artikeln kan du se hur du:
- Skapa en CDC-resurs.
- Övervaka CDC-aktivitet.
Du kan ändra och expandera konfigurationsmönstret i den här artikeln.
Förutsättningar
Innan du påbörjar procedurerna i den här artikeln kontrollerar du att du har följande resurser:
- Azure-prenumeration. Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt Azure-konto.
- SQL-databas. Du använder Azure SQL Database som källdatalager. Om du inte har en SQL-databas skapar du en i Azure Portal.
- Lagringskonto. Du använder Delta Lake som lagras i Azure Data Lake Storage Gen2 som måldatalager. Om du inte har något lagringskonto kan du läsa Skapa ett lagringskonto för stegen för att skapa ett.
Skapa en CDC-artefakt
Gå till fönstret Författare i datafabriken. Under Pipelines visas en ny artefakt på toppnivå med namnet Change Data Capture (förhandsversion).
Hovra över Ändra datainsamling (förhandsversion) tills tre punkter visas. Välj sedan Ändra datainsamlingsåtgärder (förhandsversion).
Välj Ny CDC (förhandsversion). Det här steget öppnar en utfällning för att påbörja den guidade processen.
Du uppmanas att namnge din CDC-resurs. Som standard är namnet "adfcdc" med ett tal som ökar med 1. Du kan ersätta det här standardnamnet med ett namn som du väljer.
Använd listrutan för att välja din datakälla. I den här artikeln väljer du Avgränsadtext.
Du uppmanas att välja en länkad tjänst. Skapa en ny länkad tjänst eller välj en befintlig.
Använd området Källinställningar om du vill ange avancerade källkonfigurationer, inklusive kolumn- och radavgränsare.
Om du inte redigerar dessa källinställningar manuellt är de inställda på standardinställningarna.
Använd knappen Bläddra för att välja källdatamappen.
När du har valt en mappsökväg väljer du Fortsätt för att ange datamålet.
Du kan välja att lägga till flera källmappar med hjälp av plusknappen (+). De andra källorna måste också använda samma länkade tjänst som du redan har valt.
Välj ett värde för måltyp med hjälp av listrutan. I den här artikeln väljer du Azure SQL Database.
Du uppmanas att välja en länkad tjänst. Skapa en ny länkad tjänst eller välj en befintlig.
För Måltabeller kan du skapa en ny måltabell eller välja en befintlig:
Om du vill skapa en måltabell väljer du fliken Nya entiteter och väljer sedan Redigera nya tabeller.
Välj en befintlig tabell genom att välja fliken Befintliga entiteter och sedan använda kryssrutan för att välja en tabell. Använd förhandsgranskningsknappen för att visa dina tabelldata.
Om befintliga tabeller på målet har matchande namn väljs de som standard under Befintliga entiteter. Annars skapas nya tabeller med matchande namn under Nya entiteter. Dessutom kan du redigera nya tabeller med hjälp av knappen Redigera nya tabeller .
Du kan använda kryssrutorna för att välja flera måltabeller från SQL-databasen. När du har valt måltabeller väljer du Fortsätt.
En ny flik för att samla in ändringsdata visas. Den här fliken är CDC Studio, där du kan konfigurera din nya resurs.
En ny mappning skapas automatiskt åt dig. Du kan uppdatera källtabell- och måltabellvalen för din mappning med hjälp av listrutorna.
När du har valt dina tabeller mappas deras kolumner som standard med växlingsknappen Automatisk mappning aktiverad. Automatisk mappning mappar automatiskt kolumnerna efter namn i mottagaren, hämtar nya kolumnändringar när källschemat utvecklas och flödar den här informationen till de mottagartyper som stöds.
Om du vill använda automatisk mappning och inte ändra några kolumnmappningar går du direkt till steg 18.
Om du vill aktivera kolumnmappningarna väljer du mappningarna och inaktiverar växlingsknappen Automatisk mappning . Välj sedan knappen Kolumnmappningar för att visa mappningarna.
Du kan växla tillbaka till automatisk mappning när som helst genom att aktivera växlingsknappen Automatisk karta .
Visa dina kolumnmappningar. Använd listrutorna för att redigera dina kolumnmappningar för mappningsmetod, källkolumn och målkolumn.
Från den här sidan kan du:
- Lägg till fler kolumnmappningar med knappen Ny mappning . Använd listrutorna för att göra val för mappningsmetod, källkolumn och målkolumn.
- Välj kolumnen Nycklar om du vill spåra borttagningsåtgärden för mottagartyper som stöds.
- Välj knappen Uppdatera under Dataförhandsgranskning för att visualisera hur data ser ut på målet.
När mappningen är klar väljer du pilknappen för att återgå till huvudarbetsytan för CDC.
Du kan lägga till fler käll-till-mål-mappningar i en CDC-artefakt. Använd knappen Redigera för att lägga till fler datakällor och mål. Välj sedan Ny mappning och använd listrutorna för att ange en ny källa och ett nytt mål. Du kan aktivera eller inaktivera automatisk mappning för var och en av dessa mappningar oberoende av varandra.
När dina mappningar har slutförts anger du CDC-svarstiden med hjälp av knappen Ange svarstid .
Välj svarstiden för CDC och välj sedan Tillämpa för att göra ändringarna.
Som standard är svarstiden inställd på 15 minuter. I exemplet i den här artikeln används alternativet Realtid för svarstid. Svarstid i realtid hämtar kontinuerligt ändringar i källdata i intervall på mindre än 1 minut.
För andra svarstider (till exempel om du väljer 15 minuter) bearbetas källdata och eventuella ändrade data hämtas sedan den senaste bearbetade tiden.
Kommentar
Om stödet utökas till direktuppspelningsdataintegrering (Azure Event Hubs och Kafka-datakällor) ställs svarstiden in på Realtid som standard.
När du har konfigurerat CDC väljer du Publicera alla för att publicera ändringarna.
Kommentar
Om du inte publicerar ändringarna kan du inte starta CDC-resursen. Knappen Start i nästa steg är inte tillgänglig.
Välj Starta för att börja köra insamlingen av ändringsdata.
Övervaka infångade ändringsdata
Öppna fönstret Övervaka med någon av följande metoder:
Välj Ändra datainsamling (förhandsversion) för att visa dina CDC-resurser.
Fönstret Hämta ändringsdata visar information om källa, mål, status och senast bearbetad information för insamling av ändringsdata.
Välj namnet på DIN CDC för att se mer information. Du kan se hur många ändringar (infoga, uppdatera eller ta bort) som har lästs och skrivits tillsammans med annan diagnostikinformation.
Om du konfigurerar flera mappningar i din ändringsdatainsamling visas varje mappning som en annan färg. Välj fältet för att se specifik information för varje mappning eller använd diagnostikinformationen längst ned i fönstret.