Samla in ändrade data med schemautveckling från Azure SQL Database till en Delta-mottagare med hjälp av en resurs för insamling av ändringsdata
GÄLLER FÖR: Azure Data Factory
Azure Synapse Analytics
Dricks
Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!
I den här artikeln använder du Användargränssnittet för Azure Data Factory för att skapa en CDC-resurs (Change Data Capture). Resursen hämtar ändrade data från en Azure SQL Database-källa och lägger till dem i Delta Lake som lagras i Azure Data Lake Storage Gen2 i realtid. Den här aktiviteten visar stöd för schemautveckling med hjälp av en CDC-resurs mellan källa och mottagare.
I den här artikeln kan du se hur du:
- Skapa en CDC-resurs.
- Gör dynamiska schemaändringar i en källtabell.
- Verifiera schemaändringar på måldeltat målmottagaren.
Du kan ändra och expandera konfigurationsmönstret i den här artikeln.
Förutsättningar
Innan du påbörjar procedurerna i den här artikeln kontrollerar du att du har följande resurser:
- Azure-prenumeration. Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt Azure-konto.
- SQL-databas. Du använder Azure SQL Database som källdatalager. Om du inte har en SQL-databas skapar du en i Azure Portal.
- Lagringskonto. Du använder Delta Lake som lagras i Azure Data Lake Storage Gen2 som måldatalager. Om du inte har något lagringskonto kan du läsa Skapa ett lagringskonto för stegen för att skapa ett.
Skapa en CDC-artefakt
Gå till fönstret Författare i datafabriken. Under Pipelines visas en ny artefakt på toppnivå med namnet Change Data Capture (förhandsversion).
Hovra över Ändra datainsamling (förhandsversion) tills tre punkter visas. Välj sedan Ändra datainsamlingsåtgärder (förhandsversion).
Välj Ny CDC (förhandsversion). Det här steget öppnar en utfällning för att påbörja den guidade processen.
Du uppmanas att namnge din CDC-resurs. Som standard är namnet "adfcdc" med ett tal som ökar med 1. Du kan ersätta det här standardnamnet med ett namn som du väljer.
Använd listrutan för att välja din datakälla. I den här artikeln väljer du Azure SQL Database.
Du uppmanas att välja en länkad tjänst. Skapa en ny länkad tjänst eller välj en befintlig.
När du har valt en länkad tjänst uppmanas du att välja källtabeller. Använd kryssrutorna för att markera källtabellerna och välj sedan värdet För inkrementell kolumn med hjälp av listrutan.
Fönstret visar endast tabeller som har stöd för inkrementella kolumndatatyper.
Kommentar
Om du vill aktivera CDC med schemautveckling i en Azure SQL Database-källa väljer du tabeller baserat på vattenstämpelkolumner i stället för tabeller som är inbyggda SQL CDC-aktiverade.
När du har valt källtabellerna väljer du Fortsätt för att ange datamålet.
Välj ett värde för måltyp med hjälp av listrutan. I den här artikeln väljer du Delta.
Du uppmanas att välja en länkad tjänst. Skapa en ny länkad tjänst eller välj en befintlig.
Välj måldatamappen. Du kan använda något av följande:
- Knappen Bläddra under Målbassökväg, som hjälper dig att automatiskt fylla i sökvägen för alla nya tabeller som valts för en källa.
- Knappen Bläddra utanför för att välja mappsökvägen individuellt.
När du har valt en mappsökväg väljer du knappen Fortsätt .
En ny flik för att samla in ändringsdata visas. Den här fliken är CDC Studio, där du kan konfigurera din nya resurs.
En ny mappning skapas automatiskt åt dig. Du kan uppdatera källtabell- och måltabellvalen för din mappning med hjälp av listrutorna.
När du har valt dina tabeller mappas deras kolumner som standard med växlingsknappen Automatisk mappning aktiverad. Automatisk mappning mappar automatiskt kolumnerna efter namn i mottagaren, hämtar nya kolumnändringar när källschemat utvecklas och flödar den här informationen till de mottagartyper som stöds.
Kommentar
Schemautvecklingen fungerar bara när växlingsknappen Automatisk karta är aktiverad. Information om hur du redigerar kolumnmappningar eller inkluderar transformeringar finns i Avbilda ändrade data med en resurs för insamling av ändringsdata.
Välj länken Nycklar och välj sedan kolumnen Nycklar som ska användas för att spåra borttagningsåtgärderna.
När dina mappningar har slutförts anger du CDC-svarstiden med hjälp av knappen Ange svarstid .
Välj svarstiden för CDC och välj sedan Tillämpa för att göra ändringarna.
Som standard är svarstiden inställd på 15 minuter. I exemplet i den här artikeln används alternativet Realtid för svarstid. Svarstid i realtid hämtar kontinuerligt ändringar i källdata i intervall på mindre än 1 minut.
För andra svarstider (till exempel om du väljer 15 minuter) bearbetas källdata och eventuella ändrade data hämtas sedan den senaste bearbetade tiden.
När du har konfigurerat CDC väljer du Publicera alla för att publicera ändringarna.
Kommentar
Om du inte publicerar ändringarna kan du inte starta CDC-resursen. Knappen Start i nästa steg är inte tillgänglig.
Välj Starta för att börja köra insamlingen av ändringsdata.
Nu när din ändringsdatainsamling körs kan du:
Använd övervakningssidan om du vill se hur många ändringar (infoga, uppdatera eller ta bort) som har lästs och skrivits tillsammans med annan diagnostikinformation.
Kontrollera att ändringsdata kom till Delta Lake som lagras i Azure Data Lake Storage Gen2 i Delta-format.
Verifiera schemat för de ändringsdata som har anlänt.
Göra ändringar på dynamisk schemanivå i källtabellerna
Lägg till en ny PersonalEmail-kolumn i källtabellen med hjälp av en
ALTER TABLE
T-SQL-instruktion, som du ser i följande exempel.Kontrollera att den nya kolumnen PersonalEmail visas i den befintliga tabellen.
Verifiera schemaändringar i deltamottagaren
Bekräfta att den nya kolumnen PersonalEmail visas i deltamottagaren. Nu vet du att ändringsdata med schemaändringar har kommit till målet.