Dela via


Samla in ändrade data med schemautveckling från Azure SQL Database till en Delta-mottagare med hjälp av en resurs för insamling av ändringsdata

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

I den här artikeln använder du Användargränssnittet för Azure Data Factory för att skapa en CDC-resurs (Change Data Capture). Resursen hämtar ändrade data från en Azure SQL Database-källa och lägger till dem i Delta Lake som lagras i Azure Data Lake Storage Gen2 i realtid. Den här aktiviteten visar stöd för schemautveckling med hjälp av en CDC-resurs mellan källa och mottagare.

I den här artikeln kan du se hur du:

  • Skapa en CDC-resurs.
  • Gör dynamiska schemaändringar i en källtabell.
  • Verifiera schemaändringar på måldeltat målmottagaren.

Du kan ändra och expandera konfigurationsmönstret i den här artikeln.

Förutsättningar

Innan du påbörjar procedurerna i den här artikeln kontrollerar du att du har följande resurser:

  • Azure-prenumeration. Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt Azure-konto.
  • SQL-databas. Du använder Azure SQL Database som källdatalager. Om du inte har en SQL-databas skapar du en i Azure Portal.
  • Lagringskonto. Du använder Delta Lake som lagras i Azure Data Lake Storage Gen2 som måldatalager. Om du inte har något lagringskonto kan du läsa Skapa ett lagringskonto för stegen för att skapa ett.

Skapa en CDC-artefakt

  1. Gå till fönstret Författare i datafabriken. Under Pipelines visas en ny artefakt på toppnivå med namnet Change Data Capture (förhandsversion).

    Skärmbild av en ny artefakt på den översta nivån för insamling av ändringsdata i fönstret Fabriksresurser.

  2. Hovra över Ändra datainsamling (förhandsversion) tills tre punkter visas. Välj sedan Ändra datainsamlingsåtgärder (förhandsversion).

    Skärmbild av knappen för att ändra datainsamlingsåtgärder som visas över den nya artefakten på den översta nivån.

  3. Välj Ny CDC (förhandsversion). Det här steget öppnar en utfällning för att påbörja den guidade processen.

    Skärmbild av en lista över åtgärder för insamling av ändringsdata.

  4. Du uppmanas att namnge din CDC-resurs. Som standard är namnet "adfcdc" med ett tal som ökar med 1. Du kan ersätta det här standardnamnet med ett namn som du väljer.

    Skärmbild av textrutan för att uppdatera namnet på en resurs.

  5. Använd listrutan för att välja din datakälla. I den här artikeln väljer du Azure SQL Database.

    Skärmbild av den guidade processen med källalternativ i en listruta.

  6. Du uppmanas att välja en länkad tjänst. Skapa en ny länkad tjänst eller välj en befintlig.

    Skärmbild av rutan för att välja eller skapa en länkad tjänst.

  7. När du har valt en länkad tjänst uppmanas du att välja källtabeller. Använd kryssrutorna för att markera källtabellerna och välj sedan värdet För inkrementell kolumn med hjälp av listrutan.

    Skärmbild som visar val av en källtabell och en inkrementell kolumn.

    Fönstret visar endast tabeller som har stöd för inkrementella kolumndatatyper.

    Kommentar

    Om du vill aktivera CDC med schemautveckling i en Azure SQL Database-källa väljer du tabeller baserat på vattenstämpelkolumner i stället för tabeller som är inbyggda SQL CDC-aktiverade.

  8. När du har valt källtabellerna väljer du Fortsätt för att ange datamålet.

    Skärmbild av knappen Fortsätt i den guidade processen för att välja ett datamål.

  9. Välj ett värde för måltyp med hjälp av listrutan. I den här artikeln väljer du Delta.

    Skärmbild av en listmeny med alla datamåltyper.

  10. Du uppmanas att välja en länkad tjänst. Skapa en ny länkad tjänst eller välj en befintlig.

    Skärmbild av rutan för att välja eller skapa en länkad tjänst till datamålet.

  11. Välj måldatamappen. Du kan använda något av följande:

    • Knappen Bläddra under Målbassökväg, som hjälper dig att automatiskt fylla i sökvägen för alla nya tabeller som valts för en källa.
    • Knappen Bläddra utanför för att välja mappsökvägen individuellt.

    Skärmbild av en mappikon för att söka efter en mappsökväg.

  12. När du har valt en mappsökväg väljer du knappen Fortsätt .

    Skärmbild av knappen Fortsätt i den guidade processen för att gå vidare till nästa steg.

  13. En ny flik för att samla in ändringsdata visas. Den här fliken är CDC Studio, där du kan konfigurera din nya resurs.

    Skärmbild av inspelningsstudion för ändringsdata.

    En ny mappning skapas automatiskt åt dig. Du kan uppdatera källtabell- och måltabellvalen för din mappning med hjälp av listrutorna.

    Skärmbild av käll-till-mål-mappningen i insamlingsstudion för ändringsdata.

  14. När du har valt dina tabeller mappas deras kolumner som standard med växlingsknappen Automatisk mappning aktiverad. Automatisk mappning mappar automatiskt kolumnerna efter namn i mottagaren, hämtar nya kolumnändringar när källschemat utvecklas och flödar den här informationen till de mottagartyper som stöds.

    Skärmbild av växlingsknappen för automatisk mappning aktiverad.

    Kommentar

    Schemautvecklingen fungerar bara när växlingsknappen Automatisk karta är aktiverad. Information om hur du redigerar kolumnmappningar eller inkluderar transformeringar finns i Avbilda ändrade data med en resurs för insamling av ändringsdata.

  15. Välj länken Nycklar och välj sedan kolumnen Nycklar som ska användas för att spåra borttagningsåtgärderna.

    Skärmbild av länken för att aktivera kolumnval för nycklar.

    Skärmbild av att välja kolumnen Nycklar för den valda källan.

  16. När dina mappningar har slutförts anger du CDC-svarstiden med hjälp av knappen Ange svarstid .

    Skärmbild av knappen Ange svarstid överst på arbetsytan.

  17. Välj svarstiden för CDC och välj sedan Tillämpa för att göra ändringarna.

    Som standard är svarstiden inställd på 15 minuter. I exemplet i den här artikeln används alternativet Realtid för svarstid. Svarstid i realtid hämtar kontinuerligt ändringar i källdata i intervall på mindre än 1 minut.

    För andra svarstider (till exempel om du väljer 15 minuter) bearbetas källdata och eventuella ändrade data hämtas sedan den senaste bearbetade tiden.

    Skärmbild av alternativen för att ange svarstid.

  18. När du har konfigurerat CDC väljer du Publicera alla för att publicera ändringarna.

    Skärmbild av publiceringsknappen överst på arbetsytan.

    Kommentar

    Om du inte publicerar ändringarna kan du inte starta CDC-resursen. Knappen Start i nästa steg är inte tillgänglig.

  19. Välj Starta för att börja köra insamlingen av ändringsdata.

    Skärmbild av startknappen överst på arbetsytan.

Nu när din ändringsdatainsamling körs kan du:

  • Använd övervakningssidan om du vill se hur många ändringar (infoga, uppdatera eller ta bort) som har lästs och skrivits tillsammans med annan diagnostikinformation.

    Skärmbild av övervakningssidan för en vald ändringsdatainsamling.

    Skärmbild av övervakningssidan för en vald ändringsdatainsamling med en detaljerad vy.

  • Kontrollera att ändringsdata kom till Delta Lake som lagras i Azure Data Lake Storage Gen2 i Delta-format.

    Skärmbild av en Delta-målmapp.

  • Verifiera schemat för de ändringsdata som har anlänt.

    Skärmbild av en Delta-fil.

Göra ändringar på dynamisk schemanivå i källtabellerna

  1. Lägg till en ny PersonalEmail-kolumn i källtabellen med hjälp av en ALTER TABLE T-SQL-instruktion, som du ser i följande exempel.

    Skärmbild av ALTER-kommandot i Azure Data Studio.

  2. Kontrollera att den nya kolumnen PersonalEmail visas i den befintliga tabellen.

    Skärmbild av en ny tabelldesign med en kolumn som lagts till för personlig e-post.

Verifiera schemaändringar i deltamottagaren

Bekräfta att den nya kolumnen PersonalEmail visas i deltamottagaren. Nu vet du att ändringsdata med schemaändringar har kommit till målet.

Skärmbild av en Delta-fil med en schemaändring.