Del via


Trinvis opdatering for Data Lake Storage-datakilder

Den trinvise opdatering for datakilder baseret på Azure Data Lake Storage giver følgende fordele:

  • Hurtigere opdateringer – Kun data, der er ændret, opdateres. Du kan f.eks. nøjes med at opdatere de seneste fem dage i et historisk datasæt.
  • Større pålidelighed – Med mindre opdateringer har du ikke brug for at opretholde forbindelser til flygtige kildesystemer i så lang tid, hvilket mindsker risikoen for forbindelsesproblemer.
  • Reduceret ressourceforbrug – Opdatering af et undersæt af dine samlede data giver mere effektiv brug af computerressourcer og reducerer det miljømæssige aftryk.

Konfigurere trinvis opdatering for Azure Data Lake Storage-datakilder

Microsoft anbefaler Delta Lake-formatet for at opnå den bedste ydeevne og resultater ved arbejde med store datasæt. Customer Insights - Data har en -connector, der er optimeret til Delta Lake-formaterede data. Interne processer såsom samling er optimeret til trinvist kun at behandle de ændrede data, hvilket resulterer i kortere behandlingstider.

Hvis du vil bruge trinvis redigering og opdatering for en Data Lake-tabel, skal du konfigurere tabellen, når du tilføjer eller redigerer Azure Data Lake-datakilden. Tabeldatamappen skal indeholde følgende mapper:

  • FullData: Mappen med datafiler indeholder startposter
  • IncrementalData: Mappe med mapper til dato/klokkeslæt-hierarki åååå/mm/dd/tt-format, der indeholder trinvise opdateringer. År-, måned-, dag- og timemapper forventes at være henholdsvis fire og to cifre. tt repræsenterer UTC-timen for opdateringerne og indeholder mapperne Upserts og Deletes. Upserts indeholder datafiler med opdateringer af eksisterende poster eller nye poster. Sletninger indeholder datafiler, hvor poster skal fjernes.

Rækkefølgen af behandling af trinvise data

Filerne behandles i mappen IncrementalData, efter den angivne UTC-time er slut. Hvis systemet f.eks. begynder at behandle den trinvise opdatering den 21. januar 2023 kl. 8:15, behandles alle filer i mappe 2023/01/21/07 (der repræsenterer datafiler, der er gemt fra 7.00-8.00). Eventuelle filer i mappen 2023/01/21/08 (repræsenterer den aktuelle time, hvor filerne stadig genereres) behandles ikke før næste kørsel.

Hvis der findes to poster for en primær nøgle, en upsert og delete, bruger Customer Insights - Data posten med den seneste ændringsdato. Hvis tidsstempel for delete f.eks. er 2023-01-21T08:00:00, og tidsstempel for upsert er 2023-01-21T08:30:00, bruges upsert-posten. Hvis sletningen fandt sted efter upsert, antages det, at posten er slettet.

Konfigurere den trinvise opdatering for Azure Data Lake-datakilder

  1. Når du tilføjer eller redigerer en datakilde, skal du navigere til ruden Attributter for tabellen.

  2. Gennemse attributterne. Kontrollér, at en oprettet eller senest opdateret datoattribut er konfigureret med dateTime som Dataformat og en Calendar.Date som Semantisk type. Rediger attributten, hvis det er nødvendigt, og vælg Udført.

  3. Rediger tabellen i ruden Vælg tabeller. Afkrydsningsfeltet Trinvis indtagelse er markeret.

    Konfigurere tabeller i en datakilde til trinvis opdatering.

    1. Gå til den rodmappe, der indeholder .csv- eller .parquet-filerne, hvor der søges efter fulde data, trinvise data-upserts og trinvise data, som slettes.
    2. Angiv udvidelsen for de fulde data og begge trinvise filer (.csv eller .parquet).
    3. I .csv-filer skal du markere kolonneafgrænseren, og hvis første række i filen skal være en kolonneoverskrift.
    4. Vælg Gem.
  4. I forbindelse med Seneste opdatering skal du vælge datotidsstempelattributten.

  5. Hvis den primære nøgle ikke er valgt, skal du vælge den primære nøgle. Den primære nøgle er en attribut, der er entydig for tabellen. Hvis en attribut skal være en gyldig primær nøgle, må den ikke indeholde dubletværdier, manglende værdier eller null-værdier. Strengattributter, heltalsattributter og GUID-datatypeattributter understøttes som primære nøgler.

  6. Vælg Luk for at gemme og lukke ruden.

  7. Fortsæt med at tilføje eller redigere datakilde.

Kør en komplet engangsopdatering for Azure Data Lake-datakilder

Når du konfigurerer en trinvis opdatering for Azure Data Lake-datakilder, er der tidspunkter, hvor data skal behandles med en fuld opdatering. Den mappe med de komplette data, der er konfigureret til den trinvise opdatering, skal indeholde placeringen af de komplette data.

  1. Når du redigerer datakilden, skal du gå til ruden Vælg tabeller og redigere den tabel, du vil opdatere.

  2. Rul til afkrydsningsfeltet Kør komplet engangsopdatering i ruden Rediger tabel, og markér det.

    Konfigurere en tabel i en datakilde til engangsopdatering.

  3. Angiv den dato og det klokkeslæt, trinvise filer skal bevares fra, i Udfør behandling af trinvise filer fra. Komplette data og de trinvise data bliver behandlet efter den angivne dato og det angivne klokkeslæt. Hvis du f.eks. vil udføre en delvis opdatering/efterudfyldning af data indtil slutningen af november og bevare de trinvise data fra begyndelsen af december til dags dato (den 30. december), skal du indtaste 1. december. Hvis du vil erstatte alle dataene og ignorere dataene i den trinvise mappe, skal du angive en fremtidig dato.

  4. Vælg Luk for at gemme og lukke ruden.

  5. Vælg Gem for at anvende ændringerne og vende tilbage til siden Datakilder. Datakilden har statussen Opdatering og udfører en komplet opdatering.