Trinnvis oppdatering for Data Lake Storage-datakilder
Trinnvis oppdatering for datakilder basert på Azure Data Lake Storage gir følgende fordeler:
- Raskere oppdateringer – Bare data som er endret, blir oppdatert. Du kan for eksempel bare oppdatere de siste fem dagene i en historisk datasett.
- Økt pålitelighet – Med mindre oppdateringer trenger du ikke å opprettholde tilkoblinger til flyktige kildesystemer så lenge, noe som reduserer risikoen for tilkoblingsproblemer.
- Reduksjon av ressursforbruk – Oppdatering av bare et delsett av de totale dataene fører til mer effektiv bruk av dataressurser og reduserer miljøavtrykket.
Konfigurer trinnvis oppdatering for Azure Data Lake Storage-datakilder
Microsoft anbefaler Delta Lake-formatet for å oppnå best ytelse og resultater ved arbeid med store datasett. Customer Insights - Data har en kobling som er optimalisert for Delta Lake-formaterte data. Interne prosesser, for eksempel samling, er optimalisert for å behandle bare endrede data trinnvis, som gir kortere behandlingstider.
Hvis du vil bruke trinnvis inntak og oppdatering for en Data Lake-tabell, konfigurerer du denne tabellen når du legger til eller redigerer Azure Data Lake-datakilden. Mappen for tabelldata må inneholde følgende mapper:
- FullData: Mappen med datafiler som inneholder innledende oppføringer
- IncrementalData: Mappe med dato-/klokkesletthierarkimapper i åååå/mm/dd/tt-format som inneholder de trinnvise oppdateringene. År-, måned-, dag- og timemapper forventes å ha henholdsvis fire og to sifre. hh representerer UTC-tiden for oppdateringene og inneholder mappene Upserts og Deletes. Upserts inneholder datafiler med oppdateringer til eksisterende oppføringer eller nye oppføringer. Deletes inneholder datafiler med oppføringer som skal fjernes.
Rekkefølgen på behandling av trinnvise data
Systemet behandler filene i IncrementalData-mappen etter den angitte UTC-timen er over. Hvis systemet for eksempel begynner å behandle den trinnvise oppdateringen 21. januar 2023 kl. 08:15, behandles alle filer i mappen 2023/01/21/07 (representerer datafiler lagret fra 07:00 til 08:00). Eventuelle filer i mappen 2023/01/21/08 (som representerer gjeldende time der filene fortsatt genereres) blir ikke behandlet før neste kjøring.
Hvis det finnes to oppføringer for en primærnøkkel, en upsert og sletting, bruker Customer Insights - Data oppføringen med datoen for siste endring. Hvis tidsstempelet for sletting for eksempel er 2023-01-21T08:00:00 og tidsstempelet for upsert er 2023-01-21T08:30:00, brukes upsert-oppføringen. Hvis slettingen skjedde etter upsert, forutsetter systemet at oppføringen blir slettet.
Konfigurer den trinnvise oppdateringen for Azure Data Lake-datakilder
Når du legger til eller redigerer en datakilde, navigerer du til Attributter-ruten for tabellen.
Gå gjennom attributtene. Kontroller at et opprettet eller sist oppdatert datoattributt er konfigurert med et dateTime-dataformat og en Calendar.Date-semantisk type. Rediger attributtet om nødvendig, og velg Fullført.
Rediger tabellen fra Velg Tabeller-ruten. Avmerkingsboksen Trinnvis inntak er merket.
- Bla til rotmappen som inneholder .csv- eller .parquet-filene, for å få fullstendige data, trinnvise data-upserts og slettinger av trinnvise data.
- Angi utvidelsen for alle dataene og både trinnvise filer (.csv eller .parquet).
- For CSV-filer velger du kolonneskilletegnet og om du vil bruke første rad i filen som kolonneoverskrift.
- Velg Lagre.
Velg datotidsstempelattributtet for Sist oppdatert.
Hvis Primærnøkkel ikke er valgt, velger du primærnøkkelen. Primærnøkkelen er et attributt som er unikt for tabellen. For at et attributt skal være en gyldig primærnøkkel, bør den ikke inneholde duplikate verdier, manglende verdier eller nullverdier. Datatypeattributtene streng, heltall og GUID støttes som primærnøkler.
Velg Lukk for å lagre lukke ruten.
Fortsett med å legge til eller redigere datakilden.
Kjøre en engangs full oppdatering for Azure Data Lake-datakilder
Etter at du har konfigurert en trinnvis oppdatering for Azure Data Lake-datakilder, må data av og til behandles med en full oppdatering. Mappen for fullstendige data som er konfigurert for den trinnvise oppdateringen, må inneholde plasseringen til de fullstendige dataene.
Når du redigerer datakilde, navigerer du til Velg tabeller-ruten og redigerer tabellen du vil oppdatere.
I ruten Rediger tabell blar du til avmerkingsboksen Kjør fullstendig oppdatering én gang og velger den.
For Behandle trinnvise filer fra angir du datoen og klokkeslettet for å beholde de trinnvise filene. Fullstendige data pluss trinnvise data begynner å behandles etter angitt dato og klokkeslett. Hvis du for eksempel vil utføre delvis oppdatering/utfylling av data til slutten av november og beholde de trinnvise dataene fra begynnelsen av desember til i dag (30. desember), angir du 1. desember. Hvis du vil erstatte alle dataene og ignorere dataene i den trinnvise mappen, angir du en fremtidig dato.
Velg Lukk for å lagre lukke ruten.
Velg Lagre for å ta i bruk endringene, og gå tilbake til siden Datakilder. Datakilen er i Oppdatering-status og utfører en fullstendig oppdatering.