Inkrementell uppdatering för Data Lake Storage-datakällor
Stegvis uppdatering för datakällor baserat på Azure Data Lake Storage har följande fördelar:
- Snabbare uppdateringar – endast data som har ändrats uppdateras. Du kan till exempel endast uppdatera de fem senaste dagarna av en historisk datauppsättning.
- Ökad pålitlighet – med mindre uppdateringar behöver du inte upprätthålla anslutningar till temporärt källsystem så länge som minskar risken för anslutningsproblem.
- Minskad resursförbrukning – uppdatera endast en del av dina totala dataleads till en effektivare användning av datorresurser och minskar miljöutrymme.
Konfigurera inkrementell uppdatering för Azure Data Lake Storage datakällor
Microsoft rekommenderar Delta Lake-formatet för att få bästa prestanda och resultat för att arbeta med stora datamängder. Customer Insights - Data ger ett anslutningsprogram som är optimerat för Delta Lake-formaterad data. Interna processer såsom sammanslagning är optimerade för att stegvis bearbeta endast de ändrade data, vilket resulterar i kortare handläggningstider.
För att använda inkrementell inmatning och uppdatering för en Data Lake-tabell, konfigurera den tabellen när du lägger till eller redigerar Azure Data Lake-datakällan. Tabelldatamappen måste innehålla följande mappar:
- FullData: Mapp med datafiler som innehåller initiala poster
- IncrementalData: Mapp med datum/tidshierarki mappar i åååå/mm/dd/hh format som innehåller uppdateringar för uppdateringar. Mapparna år, månad, dag och timme förväntas vara fyra respektive tvåsiffriga. hh representerar UTC-timmen för uppdateringarna och innehåller mapparna Upserts och Borttagningar. Upserts innehåller datafiler med uppdateringar av befintliga poster eller nya poster. Borttagningar innehåller datafiler med poster som ska tas bort.
Ordning för behandling av inkrementella data
Systemet bearbetar filerna i mappen IncrementalDataefter angivna UTC-timmen slutar. Om systemet till exempel börjar bearbeta uppdateringen 21 januari 2023 klockan 8:15 bearbetas alla filer i mappen 2023/01/21/07 (representerar datafiler som lagras 07:00 till 08:00). Alla filer i mappen 2023/01/21/08 (representerar den aktuella timmen där filerna fortfarande genereras) bearbetas inte förrän nästa körning.
Om det finns två poster för en primärnyckel, en upsert och radering, Customer Insights - Data använder posten med det senaste ändrade datumet. Om tidsstämpeln för borttagning är 2023-01-21T08:00:00 och den upsert-tidsstämpeln är 2023-01-21T08:30:00 används den upsert-posten. Om borttagningen inträffade efter upsert tas posten bort i systemet.
Konfigurera inkrementell uppdatering för Azure Data Lake datakällor
När du lägger till eller redigerar datakälla navigerar du till tabellen attribut fönster.
Granska attributen. Se till att ett skapat eller senast uppdaterat datumattribut är inställt med en dateTimeDataformat och Calendar.DateSemantisk typ. Redigera attributet om det behövs och välj Klar.
Från fönstret Välj tabeller redigera tabellen. Kryssrutan Inkrementell inmatning markeras.
- Bläddra till rotmappen som innehåller .csv- eller .parquet-filerna för fullständig data, inkrementella data upserts och inkrementella dataraderingar.
- Ange filnamnstillägget för fullständiga data och båda filerna (.csv eller .parquet).
- Om .csv filer markerar du kolumnavgränsaren och om du vill ha den första raden i filen som en kolumnrubrik.
- Välj Spara.
För Senaste uppdatering väljer du attributet datumtidsstämpel.
Om den primära nyckeln inte är markerad markerar du den primära nyckeln. Den primära nyckeln är ett attribut som är unikt för tabellen. För att ett attribut ska vara en giltig primär nyckel bör det inte innehålla dubblettvärden, saknade värden och null-värden. Sträng-, heltals- och GUID-datatypattribut stöds som primärnycklar.
Välj Stäng när du vill spara och stänga fönstret.
Fortsätt med att lägga till eller redigera datakälla.
Kör engångs fullständig uppdatering för Azure Data Lake datakällor
När du har konfigurerat en inkrementell uppdatering för Azure Data Lake-datakällor, finns det tillfällen då data behöver bearbetas med en fullständig uppdatering. Den fullständiga datamapp som har angetts för uppdatering av texten måste innehålla platsen för alla data.
När du redigerar datakälla navigerar du till rutan Välj tabeller och redigerar den tabell du vill uppdatera.
I rutan Redigera tabell bläddrar du till kryssrutan Kör engångs fullständig uppdatering och markerar den.
För Bearbeta inkrementella filer från, ange datum och tid för att behålla de inkrementella filerna. Fullständig data plus inkrementell data börjar bearbetas efter angivet datum och tid. Ange till exempel 1 december om du vill göra en del av datauppdateringen/uppdateringen till slutet av november samtidigt som du behåller informationen från början av december till idag (30 december). Om du vill byta ut alla data och ignorera informationen i mappen med information anger du ett framtida datum.
Välj Stäng när du vill spara och stänga fönstret.
Klicka på Spara om du vill tillämpa ändringarna och återgå till sidan Datakällor. Datakällan är i tillståndet Uppdatering utför en fullständig uppdatering.