Del via


Rask kopi i Dataflyter Gen2

Denne artikkelen beskriver hurtigkopieringsfunksjonen i Dataflyter Gen2 for Data Factory i Microsoft Fabric. Dataflyter hjelper deg med å innta og transformere data. Med introduksjonen av dataflyt skalering ut med SQL DW-databehandling, kan du transformere dataene i stor skala. Dataene må imidlertid inntas først. Med introduksjonen av rask kopi kan du innta terabyte med data med den enkle opplevelsen av dataflyter, men med den skalerbare bakenden av kopiaktiviteten for datasamlebåndet.

Når du har aktivert denne funksjonen, bytter dataflyter automatisk bakenden når datastørrelsen overskrider en bestemt terskel, uten å måtte endre noe under redigering av dataflytene. Etter oppdateringen av en dataflyt kan du sjekke inn oppdateringsloggen for å se om rask kopi ble brukt under kjøringen ved å se på motortypen som vises der.

Med alternativet Krev rask kopi aktivert, avbrytes dataflytoppdateringen hvis rask kopi ikke brukes. Dette hjelper deg med å unngå å vente på at et tidsavbrudd for oppdatering fortsetter. Denne virkemåten kan også være nyttig i en feilsøkingsøkt for å teste dataflytvirkemåten med dataene, samtidig som ventetiden reduseres. Ved hjelp av hurtigkopiindikatorene i spørringstrinnruten kan du enkelt kontrollere om spørringen kan kjøre med rask kopi.

Skjermbilde som viser hvor hurtigkopiindikatoren vises i ruten for spørringstrinn.

Forutsetning

  • Du må ha en stoffkapasitet.
  • For fildata er filer i .csv eller parquetformat på minst 100 MB, og lagres i en Azure Data Lake Storage (ADLS) Gen2 eller en Blob-lagringskonto.
  • For databaser, inkludert Azure SQL DB og PostgreSQL, 5 millioner rader eller mer med data i datakilden.

Merk

Du kan hoppe over terskelen for å tvinge Fast Copy ved å velge innstillingen «Krev rask kopi».

Koblingsstøtte

Rask kopi støttes for følgende Dataflyt Gen2-koblinger:

  • ADLS Gen2
  • Blob Storage
  • Azure SQL-databasen
  • Lakehouse
  • PostgreSQL
  • Lokal SQL Server
  • Warehouse
  • Oracle
  • Snowflake

Kopiaktiviteten støtter bare noen få transformasjoner når du kobler til en filkilde:

  • Kombiner filer
  • Velg kolonner
  • Endre datatyper
  • Gi nytt navn til en kolonne
  • Fjerne en kolonne

Du kan fortsatt bruke andre transformasjoner ved å dele inninntaks- og transformasjonstrinnene i separate spørringer. Den første spørringen henter faktisk dataene, og den andre spørringen refererer til resultatene slik at DW-databehandling kan brukes. For SQL-kilder støttes enhver transformasjon som er en del av den opprinnelige spørringen.

Når du laster inn spørringen direkte til et utdatamål, støttes bare Lakehouse-destinasjoner for øyeblikket. Hvis du vil bruke et annet utdatamål, kan du først sette opp spørringen og referere til den senere.

Slik bruker du rask kopi

  1. Gå til riktig stoffendepunkt.

  2. Gå til et premium arbeidsområde og opprett en dataflyt gen2.

  3. Velg Alternativer på Hjem-fanen i den nye dataflyten:

    Skjermbilde som viser hvor du velger Alternativer for dataflyter Gen2 på Hjem-fanen.

  4. Velg deretter Skaler-fanen i dialogboksen Alternativer, og merk av for Tillat bruk av hurtigkopikoblinger for å aktivere rask kopi. Lukk deretter dialogboksen Alternativer.

    Skjermbilde som viser hvor du aktiverer rask kopi på Skala-fanen i dialogboksen Alternativer.

  5. Velg Hent data , og velg deretter ADLS Gen2-kilden, og fyll ut detaljene for beholderen.

  6. Bruk kombiner filfunksjonalitet.

    Skjermbilde som viser forhåndsvisningsmappedatavinduet med alternativet Kombiner uthevet.

  7. Hvis du vil sikre rask kopi, bruker du bare transformasjoner som er oppført i koblingsstøttedelen i denne artikkelen. Hvis du må bruke flere transformasjoner, bør du først iscenesette dataene og referere til spørringen senere. Foreta andre transformasjoner i den refererte spørringen.

  8. (Valgfritt) Du kan angi alternativet Krev rask kopiering for spørringen ved å høyreklikke på den for å velge og aktivere dette alternativet.

    Skjermbilde som viser hvor du velger alternativet Krev rask kopiering på hurtigmenyen for en spørring.

  9. (Valgfritt) For øyeblikket kan du bare konfigurere et Lakehouse som utdatamål. For et hvilket som helst annet mål, bør du fase spørringen og referere til den senere i en annen spørring der du kan sende ut til en hvilken som helst kilde.

  10. Kontroller de raske kopieringsindikatorene for å se om spørringen kan kjøres med rask kopi. I så fall viser motortypen CopyActivity.

    Skjermbilde som viser oppdateringsdetaljene som angir at datasamlebåndets CopyActivity-motor ble brukt.

  11. Publiser dataflyten.

  12. Kontroller etter at oppdateringen er fullført for å bekrefte at rask kopi ble brukt.

Slik deler du spørringen for å dra nytte av rask kopi

Hvis du vil ha optimal ytelse når du behandler store mengder data med Dataflyt gen2, kan du bruke Fast Copy-funksjonen til først å innta data til oppsamling, og deretter transformere dem i stor skala med SQL DW-databehandling. Denne tilnærmingen forbedrer ytelsen fra ende til ende betydelig.

Hvis du vil implementere dette, kan hurtigkopieringsindikatorer veilede deg til å dele spørringen i to deler: datainntak til oppsamling og transformasjon i stor skala med SQL DW-databehandling. Du oppfordres til å sende så mye av evalueringen av en spørring til Fast Copy som kan brukes til å innta dataene. Når Hurtigkopi-indikatorer forteller at resten av trinnene ikke kan utføres av Fast Copy, kan du dele resten av spørringen med klargjøring aktivert.

Trinndiagnoseindikatorer

Viser Ikon Beskrivelse
Dette trinnet evalueres med rask kopi Hurtigkopi-indikatoren forteller deg at spørringen frem til dette trinnet støtter rask kopi.
Dette trinnet støttes ikke av rask kopiering Hurtigkopi-indikatoren viser at dette trinnet ikke støtter Fast Copy.
Ett eller flere trinn i spørringen støttes ikke av rask Hurtigkopi-indikatoren viser at noen trinn i denne spørringen støtter Fast Copy, mens andre ikke gjør det. Hvis du vil optimalisere, kan du dele spørringen: gule trinn (potensielt støttet av Fast Copy) og røde trinn (støttes ikke).

Trinnvis veiledning

Når du har fullført datatransformasjonslogikken i Dataflyt gen2, evaluerer Fast Copy-indikatoren hvert trinn for å finne ut hvor mange trinn som kan dra nytte av Fast Copy for bedre ytelse.

I eksemplet nedenfor viser det siste trinnet rødt, som angir at trinnet med Grupper etter ikke støttes av Fast Copy. Alle tidligere trinn som viser gult, kan imidlertid potensielt støttes av Fast Copy.

Skjermbilde som viser den første spørringen.

Hvis du for øyeblikket publiserer og kjører Dataflyt gen2 direkte, vil den ikke bruke Fast Copy-motoren til å laste inn dataene som bildet nedenfor:

Skjermbilde som viser resultatet uten at rask kopi er aktivert.

Hvis du vil bruke Fast Copy-motoren og forbedre ytelsen til Dataflyt gen2, kan du dele spørringen i to deler: datainntak til oppsamling og transformasjon i stor skala med SQL DW-databehandling, som følger:

  1. Fjern transformasjonene (som viser rødt) som ikke støttes av Fast Copy, sammen med målet (hvis definert).

  2. Hurtigkopi-indikatoren viser nå grønt for de gjenværende trinnene, noe som betyr at den første spørringen kan dra nytte av Fast Copy for bedre ytelse.

    Velg Handling for den første spørringen, og velg deretter Aktiver oppsamling og referanse.

    Skjermbilde som viser den andre spørringen.

  3. I en ny referert spørring leste du transformasjonen Grupper etter og målet (hvis aktuelt).

    Skjermbilde som viser den tredje spørringen.

  4. Publiser og oppdater Dataflyt gen2. Nå ser du to spørringer i Dataflyt-gen2, og den totale varigheten reduseres i stor grad.

    • Den første spørringen inntar data i oppsamling ved hjelp av Fast Copy.

    • Den andre spørringen utfører transformasjoner i stor skala ved hjelp av SQL DW-databehandling.

      Skjermbilde som viser resultatet av spørringen.

    Den første spørringen:

    Skjermbilde som viser resultatet av inntak.

    Den andre spørringen:

    Skjermbilde som viser resultatet av transformasjonen.

Kjente begrensninger

  1. En lokal datagateway versjon 3000.214.2 eller nyere er nødvendig for å støtte Fast Copy.
  2. VNet-gatewayen støttes ikke.
  3. Skriving av data til en eksisterende tabell i Lakehouse støttes ikke.
  4. Fast skjema støttes ikke.