Alternativer for avansert konfigurasjon i Azure Synapse Link
Azure Synapse Link har flere måter for å skrive og lese dataene slik at de passer til ulike analytiske scenarioer. Avhengig av ditt analytiske scenario kan du velge en bestemt konfigurasjon fra alternativene nedenfor.
Scenario | Gjelder følgende | Tilgjengelige konfigurasjonsalternativer |
---|---|---|
Driftsrapportering | Dataverse-tabeller, økonomi- og driftstabeller og -enheter | Synapse Analytics med Delta Lake gir bedre svartider for spørringer, spesielt aktuelt for spørring av store mengder data. Mer informasjon: Synapsekobling med Delta-sjøvalg |
Driftsrapportering | Bare Dataverse-tabeller | Konfigurasjonsalternativet Synapse Link med «Oppdatering på stedet» gir CSV-filer i datasjøen som oppdateres i nær sanntid Dette er et eldre alternativ som er tilgjengelig for Dataverse-tabeller. Dette alternativet støttes ikke for tabeller fra økonomi- og driftsapper |
Dataintegrering | Dataverse-tabeller og økonomi- og driftstabeller og -enheter | Alternativet "Bare tilføy gir CSV-filer som inneholder inkrementelle data. Du kan bygge pipeliner som bruker trinnvise data og fyller ut nedstrømssystemer Funksjonen Brukerspesifisert datapartisjon gjør det mulig å velge en egendefinert datapartisjoneringsstrategi spesielt for Dataverse-tabeller. Tabelldata for økonomi og drift partisjoneres av systemet basert på riktig partisjonsstrategi. Dette alternativet er ikke tilgjengelig for økonomi- og driftsapper |
Merk
Azure Synapse Link for Dataverse var tidligere kjent som eksporter til datasjø. Tjenesten har fått nytt navn med virkning fra mai 2021 og vil fortsette å eksportere data til Azure Data Lake Storage samt Azure Synapse Analytics. Fra og med september 2023 muliggjør Azure Synapse Link også valg av data fra Dynamics 365 økonomi- og driftsapplikasjoner. Ikke alle integreringsmønstre støttes med økonomi- og driftsapper. Hvis du vil ha veiledning om overgang fra funksjonen Eksporter til datasjø i økonomi- og driftsapper til Synapse Link, kan du gå til overgangsveiledningen.
Denne artikkelen dekker avanserte konfigurasjonsinnstillinger som er tilgjengelige for Dataverse-tabeller. Disse alternativene er ikke tilgjengelige for økonomi- og driftsapper.
- Oppdateringer på stedet kontra bare tilføy-skrivinger.
- Brukerangitt datapartisjonering.
Oppdateringer på stedet kontra Bare tilføy-skrivinger
Når du skriver Dataverse-tabelldata til Azure Data Lake basert på createdOn
verdien, som er datoen og klokkeslettet oppføringen ble opprettet, er det to ulike innstillinger å velge mellom. De er Oppdatering på stedet og Bare tilføy.
Standardinnstillingen (for tabeller der createdOn
er tilgjengelig) er å gjøre en oppdatering eller upsert (oppdatering eller innsetting) av de trinnvise dataene i målet. Hvis endringen er ny og en korresponderende rad ikke finnes i sjøen, skannes målfilene i tilfelle oppretting, og endringene settes inn i den tilsvarende filpartisjonen i sjøen. Hvis endringen er en oppdatering og det finnes en rad i sjøen, oppdateres den tilsvarende filen i sjøen i stedet for å settes inn, med de trinnvise dataene. Med andre ord er standardinnstillingen for alle CUD-endringer (opprett, oppdater, slett) i Dataverse-tabeller, der createdOn
er tilgjengelig, å gjøre en oppdatering på stedet i målet i Azure Data Lake.
Du kan endre standardfunksjonaliteten for en oppdatering på stedet ved å bruke en valgfri innstilling som kalles Bare tilføy. I stedet for en Oppdatering på stedet, tilføyes trinnvise data i modusen Bare tilføy fra Dataverse tabeller i den tilsvarende filpartisjonen i sjøen. Dette er en innstilling per tabell og er tilgjengelig som en avmerkingsboks under Avansert>Vis avanserte konfigurasjonstillinger. For Dataverse tabeller der Bare tilføy er aktivert, legges alle CUD-endringene trinnvis til i de tilsvarende målfilene i sjøen. Når du velger dette alternativet, brukes År som standard partisjonsstrategi, og når data skrives til datasjøen, partisjoneres den årlig. Bare tilføying er også standardinnstillingen for Dataverse-tabeller som ikke har createdOn
-verdi.
Denne tabellen beskriver hvordan rader håndteres i sjøen mot CUD-hendelser for hver av skrivealternativene for data.
Seminar/konferanse | Oppdatering på stedet | Bare tilføy |
---|---|---|
Opprette | Raden settes inn i partisjonsfilen og er basert på createdOn verdien på raden. |
Raden legges til på slutten av partisjonsfilen og er basert på createdOn oppføringens verdi. |
Oppdater | Hvis raden finnes i partisjonsfilen, erstattes eller oppdateres den med oppdaterte data. Hvis den ikke finnes, blir den satt inn i filen. | Raden, sammen med den oppdaterte versjonen, legges til på slutten av partisjonsfilen. |
Delete | Hvis raden finnes i partisjonsfilen, fjernes den fra filen. | Raden legges til på slutten av partisjonsfilen med IsDelete column = True . |
Merk
For Dataverse tabeller der Bare tilføy er aktivert, vil sletting av en rad i kilden ikke slette eller fjerne raden i sjøen. I stedet føyes den slettede raden til som en ny rad i sjøen, og kolonnen isDeleted
settes til Sann.
Uren lesing (ALLOW_INCONSISTENT_READS) for serverløs er aktivert for modus for bare tilføying. ALLOW_INCONSISTENT_READS betyr at brukeren kan lese filene som kan endres kontinuerlig mens SELECT
-spørringen kjører. Resultatene blir konsekvent og tilsvarer lesing av et øyeblikksbilde av filen. (Det tilsvarer ikke isolering av øyeblikksbilder av databaser på grunn av den forskjellige tiden for generering av øyeblikksbilder.)
Ikke alle CUD-endringer fanges opp i bare tilføy: Synapse Link behandler endringer i data i grupper eller "batcher" før de publiseres til data lake. Hvis brukeren gjør endringer i løpet av et kort tidsintervall, fanges derfor ikke alle CUD-endringene opp i data lake.
Her er noen flere detaljer om når du kan bruke et av alternativene.
- Lokal oppdatering: Dette alternativet er standardinnstillingen og anbefales bare hvis du vil koble direkte til dataene i sjøen og trenger nåværende tilstand (ikke logg eller trinnvise endringer). Filen inneholder det fullstendige datasettet og kan brukes via Power BI eller ved å kopiere hele datasett for ETL-pipeliner (Extract, Transfer, Load).
- Bare tilføy: Velg dette alternativet hvis du ikke kobler deg direkte til data i sjøen og vil trinnvis kopiere data til et annet mål ved hjelp av ETL-pipeliner. Med dette alternativet finner du en logg over endringer for å aktivere scenarier for AI og ML.
Du kan veksle mellom Vis avanserte konfigurasjonsinnstillinger under Avansert i Azure Synapse Link for Dataverse for å tilpasse datapartisjonsstrategien og velge alternativer for å skrive til datasjøen i Azure.
Datapartisjonering
Når du skriver Dataverse-tabelldata til Azure Data Lake Storage ved å bruke Azure Synapse Link, partisjoneres tabellene (i stedet for én enkelt fil) i sjøen basert på verdien createdOn
i hver rad i kilden. Standard partisjonsstrategi er etter måned, og data er partisjonert i Azure data lake på månedlig basis.
Basert på Dataverse-tabellvolumet og datadistribusjonen kan du velge å partisjonere dataene dine etter år. Med dette alternativet, når Dataverse-tabelldata skrives til Azure data lake, vil de bli partisjonert årlig basert på createdOn
-verdien på hver rad i kilden. For tabeller uten createdOn
-kolonnen blir dataradene partisjonert i en ny fil hver 5000000 poster. Dette er en innstilling per tabell og er tilgjengelig som en avmerkingsboks under Avansert>Vis avanserte konfigurasjonstillinger.
Flere detaljer med eksempler på hvordan data håndteres i sjøen med årlig eller månedlig partisjonsstrategi: