Konfigurer Lakehouse i en kopiaktivitet
I denne artikel beskrives det, hvordan du bruger kopiaktiviteten i en datapipeline til at kopiere data fra og til Fabric Lakehouse. Som standard skrives data til Lakehouse Table i V-Order, og du kan gå til Tabeloptimering af Delta Lake og V-Order for at få flere oplysninger.
Understøttet format
Lakehouse understøtter følgende filformater. Se hver artikel for at få formatbaserede indstillinger.
- Avro-format
- Binært format
- Afgrænset tekstformat
- Excel-format
- JSON-format
- ORC-format
- Parquetformat
- XML-format
Understøttet konfiguration
Hvis du vil konfigurere hver fane under kopiaktivitet, skal du gå til henholdsvis følgende afsnit.
Generelt
Gå til Generelt for at se konfigurationen af fanen Generelt.
Kilde
Følgende egenskaber understøttes for Lakehouse under fanen Kilde for en kopiaktivitet.
Følgende egenskaber er påkrævet:
Forbindelse: Vælg en Lakehouse-forbindelse på forbindelseslisten. Hvis der ikke findes nogen forbindelse, skal du oprette en ny Lakehouse-forbindelse ved at vælge Mere nederst på forbindelseslisten. Hvis du anvender Brug dynamisk indhold til at angive dit Lakehouse, skal du tilføje en parameter og angive Lakehouse-objekt-id'et som parameterværdi. Hvis du vil hente dit Lakehouse-objekt-id, skal du åbne lakehouse'et i dit arbejdsområde, hvorefter id'et er efter
/lakehouses/
i din URL-adresse.Rodmappe: Vælg tabeller eller filer, som angiver den virtuelle visning af det administrerede eller ikke-administrerede område i din sø. Du kan finde flere oplysninger i Introduktion til Lakehouse.
Hvis du vælger Tabeller:
Tabelnavn: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som kilde. Du kan også vælge Ny for at oprette en ny tabel.
Tabel: Når du anvender Lakehouse med skemaer i forbindelsen, skal du vælge en eksisterende tabel med et skema på tabellisten eller angive en tabel med et skema som kilde. Du kan også vælge Ny for at oprette en ny tabel med et skema. Hvis du ikke angiver et skemanavn, bruger tjenesten dbo som standardskema.
Under Avanceret kan du angive følgende felter:
- Tidsstempel: Angiv, at et ældre snapshot skal forespørge efter tidsstempel.
- Version: Angiv, om der skal forespørgs om et ældre snapshot efter version.
- Flere kolonner: Føj yderligere datakolonner til lagringskildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte.
Læserversion 1 understøttes. Du kan finde de tilsvarende understøttede Delta Lake-funktioner i denne artikel.
Hvis du vælger Filer:
Filtype: Du kan vælge Filsti, Sti til jokertegn eller Liste over filer som filtype. På følgende liste beskrives konfigurationen af hver indstilling:
Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere, eller udfyld stien manuelt.
Sti til jokertegnfil: Angiv mappen eller filstien med jokertegn under det angivne ikke-administrerede Lakehouse-område (under Filer) for at filtrere kildemapperne eller -filerne. Tilladte jokertegn er:
*
(svarer til nul eller flere tegn) og?
(svarer til nul eller enkelt tegn). Bruges^
til at undslippe, hvis mappen eller filnavnet har jokertegn eller dette escape-tegn.Sti til jokertegnmappe: Stien til mappen under den angivne objektbeholder. Hvis du vil bruge et jokertegn til at filtrere mappen, skal du springe denne indstilling over og angive disse oplysninger i indstillingerne for aktivitetskilden.
Jokertegnfilnavn: Filnavnet under det angivne Lakehouse-ikke-administrerede område (under Filer) og mappestien.
Liste over filer: Angiver, at et givent filsæt skal kopieres.
- Mappesti: Peger på en mappe, der indeholder filer, du vil kopiere.
- Sti til filliste: Peger på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede filsti.
Rekursivt: Angiver, om dataene læses rekursivt fra undermapperne eller kun fra den angivne mappe. Hvis indstillingen er aktiveret, behandles alle filer i inputmappen og dens undermapper rekursivt. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
Filformat: Vælg filformatet på rullelisten. Vælg knappen Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttet format for at få flere oplysninger om indstillinger for forskellige filformater.
Under Avanceret kan du angive følgende felter:
-
Filtrer efter senest ændret: Filer filtreres på baggrund af de senest ændrede datoer. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
- Starttidspunkt: Filerne vælges, hvis deres seneste ændringstid er større end eller lig med det konfigurerede klokkeslæt.
- Sluttidspunkt: Filerne vælges, hvis deres seneste ændringstid er mindre end det konfigurerede tidspunkt.
-
Aktivér registrering af partition: For filer, der er partitioneret, skal du angive, om partitionerne skal fortolkes fra filstien, og tilføje dem som ekstra kildekolonner.
- Partitionsrodsti: Når registrering af partition er aktiveret, skal du angive den absolutte rodsti for at læse partitionerede mapper som datakolonner.
- Maksimalt antal samtidige forbindelser: Angiver den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
-
Filtrer efter senest ændret: Filer filtreres på baggrund af de senest ændrede datoer. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
Destination
Følgende egenskaber understøttes for Lakehouse under fanen Destination for en kopiaktivitet.
Følgende egenskaber er påkrævet:
Forbindelse: Vælg en Lakehouse-forbindelse på forbindelseslisten. Hvis der ikke findes nogen forbindelse, skal du oprette en ny Lakehouse-forbindelse ved at vælge Mere nederst på forbindelseslisten. Hvis du anvender Brug dynamisk indhold til at angive dit Lakehouse, skal du tilføje en parameter og angive Lakehouse-objekt-id'et som parameterværdi. Hvis du vil hente dit Lakehouse-objekt-id, skal du åbne lakehouse'et i dit arbejdsområde, hvorefter id'et er efter
/lakehouses/
i din URL-adresse.Rodmappe: Vælg tabeller eller filer, som angiver den virtuelle visning af det administrerede eller ikke-administrerede område i din sø. Du kan finde flere oplysninger i Introduktion til Lakehouse.
Hvis du vælger Tabeller:
Tabelnavn: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som destination. Du kan også vælge Ny for at oprette en ny tabel.
Tabel: Når du anvender Lakehouse med skemaer i forbindelsen, skal du vælge en eksisterende tabel med et skema på tabellisten eller angive en tabel med et skema som destination. Du kan også vælge Ny for at oprette en ny tabel med et skema. Hvis du ikke angiver et skemanavn, bruger tjenesten dbo som standardskema.
Bemærk
Tabelnavnet skal være mindst ét tegn langt, uden '/' eller '\', ingen efterstillet prik og ingen foranstillede eller efterstillede mellemrum.
- Under Advancedkan du angive følgende felter:
Tabelhandlinger: Angiv handlingen i forhold til den valgte tabel.
Tilføj: Føj nye værdier til eksisterende tabel.
-
Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file".
- Navn på partitionskolonne: Vælg mellem destinationskolonnerne i skematilknytningen, når du føjer data til en ny tabel. Når du føjer data til en eksisterende tabel, der allerede har partitioner, afledes partitionskolonnerne automatisk fra den eksisterende tabel. Understøttede datatyper er streng, heltal, boolesk og datetime. Format respekterer indstillinger for typekonvertering under fanen Tilknytning .
-
Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file".
Overskriv: Overskriv de eksisterende data og skemaer i tabellen ved hjælp af de nye værdier. Hvis denne handling er valgt, kan du aktivere partition i destinationstabellen:
-
Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file".
- Navn på partitionskolonne: Vælg mellem destinationskolonnerne i skematilknytningen. Understøttede datatyper er streng, heltal, boolesk og datetime. Format respekterer indstillinger for typekonvertering under fanen Tilknytning .
Det understøtter Delta Lake tidsrejse. Den overskrevne tabel indeholder deltalogge for de tidligere versioner, som du kan få adgang til i lakehouse. Du kan også kopiere tabellen med den tidligere version fra Lakehouse ved at angive Version i kopiaktivitetskilden.
-
Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file".
Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
Skriveversion 2 understøttes. Du kan finde de tilsvarende understøttede Delta Lake-funktioner i denne artikel.
Hvis du vælger Filer:
Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere, eller udfyld stien manuelt.
Filformat: Vælg filformatet på rullelisten. Vælg Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttet format for at få flere oplysninger om indstillinger for forskellige filformater.
Under Avanceret kan du angive følgende felter:
Funktionsmåde for kopiering: Definerer kopifunktionsmåden, når kilden er filer fra et filbaseret datalager. Du kan vælge Flad hierarki, Flet filer, Bevar hierarki eller Tilføj dynamisk indhold som din kopifunktion. Konfigurationen af hver indstilling er:
Fladgør hierarki: Alle filer fra kildemappen er på det første niveau i destinationsmappen. Destinationsfilerne har automatisk genererede navne.
Flet filer: Fletter alle filer fra kildemappen til én fil. Hvis filnavnet er angivet, er det flettede filnavn det angivne navn. Ellers er det et automatisk genereret filnavn.
Bevar hierarki: Bevarer filhierarkiet i destinationsmappen. Den relative sti for en kildefil til kildemappen er identisk med den relative sti for en destinationsfil til destinationsmappen.
Tilføj dynamisk indhold: Hvis du vil angive et udtryk for en egenskabsværdi, skal du vælge Tilføj dynamisk indhold. Dette felt åbner udtryksgeneratoren, hvor du kan oprette udtryk fra understøttede systemvariabler, aktivitetsoutput, funktioner og brugerdefinerede variabler eller parametre. Du kan få flere oplysninger om udtrykssproget under Udtryk og funktioner.
Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
Blokstørrelse (MB): Angiv blokstørrelsen i MB, når du skriver data til Lakehouse. Den tilladte værdi er mellem 4 MB og 100 MB.
Metadata: Angiv brugerdefinerede metadata, når der kopieres til destinationsdatalageret. Hvert objekt under matrixen
metadata
repræsenterer en ekstra kolonne.name
definerer navnet på metadatanøglen ogvalue
angiver dataværdien for den pågældende nøgle. Hvis funktionen bevar attributter bruges, vil de angivne metadata blive forenings-/overskrive med kildefilens metadata. De tilladte dataværdier er:
Tilknytning
Hvis du ikke anvender Tabellen Lakehouse som destinationsdatalager under fanen Tilknytning, skal du gå til Tilknytning.
Hvis du anvender tabellen Lakehouse som dit destinationsdatalager, bortset fra konfigurationen i Tilknytning, kan du redigere typen for dine destinationskolonner. Når du har valgt Importér skemaer, kan du angive kolonnetypen i destinationen.
Typen for kolonnen PersonID i kilden er f.eks. int, og du kan ændre den til strengtype, når du tilknytter til destinationskolonnen.
Bemærk
Redigering af destinationstypen understøttes i øjeblikket ikke, når kilden er decimaltype.
Hvis du vælger Binær som filformat, understøttes tilknytning ikke.
Indstillinger
Gå til Indstillinger under fanen Indstillinger.
Tabeloversigt
Følgende tabeller indeholder flere oplysninger om en kopiaktivitet i Lakehouse.
Kildeoplysninger
Navn | Beskrivelse | Værdi | Obligatorisk | JSON-scriptegenskab |
---|---|---|---|---|
Forbindelse | Sektionen for at vælge din forbindelse. | < din Lakehouse-forbindelse> | Ja | workspaceId artifactId |
Rodmappen | Rodmappens type. | • Tabeller • Filer |
Nr. | rootFolder: Tabel eller filer |
Tabelnavn | Navnet på den tabel, du vil læse data for. | <dit tabelnavn> | Ja, når du vælger Tabeller i rodmappen | table |
Tabel | Navnet på tabellen med et skema, som du vil læse data i, når du anvender Lakehouse med skemaer som forbindelse. | <din tabel med et skema> | Ja, når du vælger Tabeller i rodmappen | / |
For tabel | ||||
skemanavn | Navnet på skemaet. |
<dit skemanavn> (standarden er dbo) |
Nr. |
(under source ->datasetSettings ->typeProperties )skema |
tabelnavn | Navnet på tabellen. | <dit tabelnavn> | Ja | table |
Timestamp | Tidsstemplet til at forespørge om et ældre snapshot. | <tidsstempel> | Nr. | timestampAsOf |
Version | Den version, der skal forespørge om et ældre snapshot. | <version> | Nr. | versionAsOf |
Flere kolonner | Yderligere datakolonner til lagring af kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte. | • Navn •Værdi |
Nr. | additionalColumns: •Navn •værdi |
Filtype | Den filtype, du bruger. | • Filsti • Sti til jokertegnfil • Liste over filer |
Ja, når du vælger Filer i rodmappen | / |
Filsti | Kopiér fra stien til en mappe/fil under kildedatalageret. | <filsti> | Ja, når du vælger Filsti | • folderPath •Filnavn |
Jokertegnstier | Mappestien med jokertegn under kildedataene, der er konfigureret til at filtrere kildemapper. | <jokertegnstier> | Ja, når du vælger sti til jokertegnfil | • jokertegnFolderPath • jokertegnFileName |
Mappesti | Peger på en mappe, der indeholder filer, du vil kopiere. | <mappesti> | Nr. | folderPath |
Sti til filliste | Angiver, at et givent filsæt skal kopieres. Peg på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede sti. | <sti til filliste> | Nr. | fileListPath |
Rekursivt | Behandl alle filer i inputmappen og dens undermapper rekursivt eller kun dem i den valgte mappe. Denne indstilling er deaktiveret, når der vælges en enkelt fil. | markér eller fjern markeringen | Nr. | Rekursive: true eller false |
Filformat | Filformatet for kildedataene. Du kan finde flere oplysninger om forskellige filformater i artikler i Understøttet format for at få detaljerede oplysninger. | / | Ja, når du vælger Filer i rodmappen | / |
Filtrer efter senest ændret | Filerne med tidspunkt for seneste ændring i intervallet [Starttidspunkt, Sluttidspunkt) filtreres til yderligere behandling. Klokkeslættet anvendes på UTC-tidszonen i formatet yyyy-mm-ddThh:mm:ss.fffZ .Denne egenskab kan springes over, hvilket betyder, at der ikke er anvendt et filattributfilter. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer. |
• Starttidspunkt • Sluttidspunkt |
Nr. | modifiedDatetimeStart modifiedDatetimeEnd |
Aktivér registrering af partition | Om partitionerne skal fortolkes fra filstien og tilføjes som ekstra kildekolonner. | Markeret eller ikke markeret | Nr. | enablePartitionDiscovery: true eller false (standard) |
Sti til partitionsrod | Den absolutte partitionsrodsti til at læse partitionerede mapper som datakolonner. | <din partitionsrodsti> | Nr. | partitionRootPath |
Maks. antal samtidige forbindelser | Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Der kræves kun en værdi, når du vil begrænse samtidige forbindelser. | <maks. antal samtidige forbindelser> | Nr. | maxConcurrentConnections |
Destinationsoplysninger
Navn | Beskrivelse | Værdi | Obligatorisk | JSON-scriptegenskab |
---|---|---|---|---|
Forbindelse | Sektionen for at vælge din forbindelse. | < din Lakehouse-forbindelse> | Ja | workspaceId artifactId |
Rodmappen | Rodmappens type. | • Tabeller • Filer |
Ja | rootFolder: Tabel eller filer |
Tabelnavn | Navnet på den tabel, du vil skrive data til. | <dit tabelnavn> | Ja, når du vælger Tabeller i rodmappen | table |
Tabel | Navnet på tabellen med et skema, som du vil skrive data til, når du anvender Lakehouse med skemaer som forbindelse. | <din tabel med et skema> | Ja, når du vælger Tabeller i rodmappen | / |
For tabel | ||||
skemanavn | Navnet på skemaet. |
<dit skemanavn> (standarden er dbo) |
Nr. |
(under sink ->datasetSettings ->typeProperties )skema |
tabelnavn | Navnet på tabellen. | <dit tabelnavn> | Ja | table |
Tabelhandling | Føj nye værdier til en eksisterende tabel, eller overskriv de eksisterende data og skemaer i tabellen ved hjælp af de nye værdier. | • Tilføj • Overskriv |
Nr. | tableActionOption: Tilføj eller overskrivSchema |
Aktivér partitioner | Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file". | Markeret eller ikke markeret | Nr. | partitionOption: PartitionByKey eller None |
Partitionskolonner | Destinationskolonnerne i skematilknytningen. | <dine partitionskolonner> | Nr. | partitionNameList |
Filsti | Skriv data til stien til en mappe/fil under destinationsdatalageret. | <filsti> | Nr. | • folderPath •Filnavn |
Filformat | Filformatet for dine destinationsdata. Du kan finde flere oplysninger om forskellige filformater i artikler i Understøttet format for at få detaljerede oplysninger. | / | Ja, når du vælger Filer i rodmappen | / |
Funktionsmåde for kopiering | Den funktionsmåde for kopiering, der er defineret, når kilden er filer fra et filbaseret datalager. | • Fladgør hierarki • Flet filer • Bevar hierarki • Tilføj dynamisk indhold |
Nr. | copyBehavior: • Fladt hierarki • Fletfiler • PreserveHierarchy |
Maks. antal samtidige forbindelser | Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser. | <maks. antal samtidige forbindelser> | Nr. | maxConcurrentConnections |
Blokstørrelse (MB) | Blokstørrelsen i MB, der bruges til at skrive data til Lakehouse. Den tilladte værdi er mellem 4 MB og 100 MB. | <blokstørrelse> | Nr. | blockSizeInMB |
Metadata | De brugerdefinerede metadata, der angives ved kopiering til en destination. | • $$LASTMODIFIED •Udtryk • Statisk værdi |
Nr. | metadata |