Rask kopi i Dataflyter Gen2
Denne artikkelen beskriver hurtigkopieringsfunksjonen i Dataflyter Gen2 for Data Factory i Microsoft Fabric. Dataflyter hjelper deg med å innta og transformere data. Med introduksjonen av dataflyt skalering ut med SQL DW-databehandling, kan du transformere dataene i stor skala. Dataene må imidlertid inntas først. Med introduksjonen av rask kopi kan du innta terabyte med data med den enkle opplevelsen av dataflyter, men med den skalerbare bakenden av kopiaktiviteten for datasamlebåndet.
Når du har aktivert denne funksjonen, bytter dataflyter automatisk bakenden når datastørrelsen overskrider en bestemt terskel, uten å måtte endre noe under redigering av dataflytene. Etter oppdateringen av en dataflyt kan du sjekke inn oppdateringsloggen for å se om rask kopi ble brukt under kjøringen ved å se på motortypen som vises der.
Med alternativet Krev rask kopi aktivert, avbrytes dataflytoppdateringen hvis rask kopi ikke brukes. Dette hjelper deg med å unngå å vente på at et tidsavbrudd for oppdatering fortsetter. Denne virkemåten kan også være nyttig i en feilsøkingsøkt for å teste dataflytvirkemåten med dataene, samtidig som ventetiden reduseres. Ved hjelp av hurtigkopiindikatorene i spørringstrinnruten kan du enkelt kontrollere om spørringen kan kjøre med rask kopi.
Forutsetning
- Du må ha en stoffkapasitet.
- For fildata er filer i .csv eller parquetformat på minst 100 MB, og lagres i en Azure Data Lake Storage (ADLS) Gen2 eller en Blob-lagringskonto.
- For databaser, inkludert Azure SQL DB og PostgreSQL, 5 millioner rader eller mer med data i datakilden.
Merk
Du kan hoppe over terskelen for å tvinge Fast Copy ved å velge innstillingen «Krev rask kopi».
Koblingsstøtte
Rask kopi støttes for følgende Dataflyt Gen2-koblinger:
- ADLS Gen2
- Blob Storage
- Azure SQL-databasen
- Lakehouse
- PostgreSQL
- Lokal SQL Server
- Warehouse
- Oracle
- Snowflake
Kopiaktiviteten støtter bare noen få transformasjoner når du kobler til en filkilde:
- Kombiner filer
- Velg kolonner
- Endre datatyper
- Gi nytt navn til en kolonne
- Fjerne en kolonne
Du kan fortsatt bruke andre transformasjoner ved å dele inninntaks- og transformasjonstrinnene i separate spørringer. Den første spørringen henter faktisk dataene, og den andre spørringen refererer til resultatene slik at DW-databehandling kan brukes. For SQL-kilder støttes enhver transformasjon som er en del av den opprinnelige spørringen.
Når du laster inn spørringen direkte til et utdatamål, støttes bare Lakehouse-destinasjoner for øyeblikket. Hvis du vil bruke et annet utdatamål, kan du først sette opp spørringen og referere til den senere.
Slik bruker du rask kopi
Gå til riktig stoffendepunkt.
Gå til et premium arbeidsområde og opprett en dataflyt gen2.
Velg Alternativer på Hjem-fanen i den nye dataflyten:
Velg deretter Skaler-fanen i dialogboksen Alternativer, og merk av for Tillat bruk av hurtigkopikoblinger for å aktivere rask kopi. Lukk deretter dialogboksen Alternativer.
Velg Hent data , og velg deretter ADLS Gen2-kilden, og fyll ut detaljene for beholderen.
Bruk kombiner filfunksjonalitet.
Hvis du vil sikre rask kopi, bruker du bare transformasjoner som er oppført i koblingsstøttedelen i denne artikkelen. Hvis du må bruke flere transformasjoner, bør du først iscenesette dataene og referere til spørringen senere. Foreta andre transformasjoner i den refererte spørringen.
(Valgfritt) Du kan angi alternativet Krev rask kopiering for spørringen ved å høyreklikke på den for å velge og aktivere dette alternativet.
(Valgfritt) For øyeblikket kan du bare konfigurere et Lakehouse som utdatamål. For et hvilket som helst annet mål, bør du fase spørringen og referere til den senere i en annen spørring der du kan sende ut til en hvilken som helst kilde.
Kontroller de raske kopieringsindikatorene for å se om spørringen kan kjøres med rask kopi. I så fall viser motortypen CopyActivity.
Publiser dataflyten.
Kontroller etter at oppdateringen er fullført for å bekrefte at rask kopi ble brukt.
Slik deler du spørringen for å dra nytte av rask kopi
Hvis du vil ha optimal ytelse når du behandler store mengder data med Dataflyt gen2, kan du bruke Fast Copy-funksjonen til først å innta data til oppsamling, og deretter transformere dem i stor skala med SQL DW-databehandling. Denne tilnærmingen forbedrer ytelsen fra ende til ende betydelig.
Hvis du vil implementere dette, kan hurtigkopieringsindikatorer veilede deg til å dele spørringen i to deler: datainntak til oppsamling og transformasjon i stor skala med SQL DW-databehandling. Du oppfordres til å sende så mye av evalueringen av en spørring til Fast Copy som kan brukes til å innta dataene. Når Hurtigkopi-indikatorer forteller at resten av trinnene ikke kan utføres av Fast Copy, kan du dele resten av spørringen med klargjøring aktivert.
Trinndiagnoseindikatorer
Viser | Ikon | Beskrivelse |
---|---|---|
Dette trinnet evalueres med rask kopi | Hurtigkopi-indikatoren forteller deg at spørringen frem til dette trinnet støtter rask kopi. | |
Dette trinnet støttes ikke av rask kopiering | Hurtigkopi-indikatoren viser at dette trinnet ikke støtter Fast Copy. | |
Ett eller flere trinn i spørringen støttes ikke av rask | Hurtigkopi-indikatoren viser at noen trinn i denne spørringen støtter Fast Copy, mens andre ikke gjør det. Hvis du vil optimalisere, kan du dele spørringen: gule trinn (potensielt støttet av Fast Copy) og røde trinn (støttes ikke). |
Trinnvis veiledning
Når du har fullført datatransformasjonslogikken i Dataflyt gen2, evaluerer Fast Copy-indikatoren hvert trinn for å finne ut hvor mange trinn som kan dra nytte av Fast Copy for bedre ytelse.
I eksemplet nedenfor viser det siste trinnet rødt, som angir at trinnet med Grupper etter ikke støttes av Fast Copy. Alle tidligere trinn som viser gult, kan imidlertid potensielt støttes av Fast Copy.
Hvis du for øyeblikket publiserer og kjører Dataflyt gen2 direkte, vil den ikke bruke Fast Copy-motoren til å laste inn dataene som bildet nedenfor:
Hvis du vil bruke Fast Copy-motoren og forbedre ytelsen til Dataflyt gen2, kan du dele spørringen i to deler: datainntak til oppsamling og transformasjon i stor skala med SQL DW-databehandling, som følger:
Fjern transformasjonene (som viser rødt) som ikke støttes av Fast Copy, sammen med målet (hvis definert).
Hurtigkopi-indikatoren viser nå grønt for de gjenværende trinnene, noe som betyr at den første spørringen kan dra nytte av Fast Copy for bedre ytelse.
Velg Handling for den første spørringen, og velg deretter Aktiver oppsamling og referanse.
I en ny referert spørring leste du transformasjonen Grupper etter og målet (hvis aktuelt).
Publiser og oppdater Dataflyt gen2. Nå ser du to spørringer i Dataflyt-gen2, og den totale varigheten reduseres i stor grad.
Den første spørringen inntar data i oppsamling ved hjelp av Fast Copy.
Den andre spørringen utfører transformasjoner i stor skala ved hjelp av SQL DW-databehandling.
Den første spørringen:
Den andre spørringen:
Kjente begrensninger
- En lokal datagateway versjon 3000.214.2 eller nyere er nødvendig for å støtte Fast Copy.
- VNet-gatewayen støttes ikke.
- Skriving av data til en eksisterende tabell i Lakehouse støttes ikke.
- Fast skjema støttes ikke.