Lakehouse configureren in een kopieeractiviteit
In dit artikel wordt beschreven hoe u de kopieeractiviteit in een gegevenspijplijn gebruikt om gegevens van en naar Fabric Lakehouse te kopiëren. Standaard worden gegevens geschreven naar Lakehouse Table in V-Order en kunt u naar Delta Lake-tabeloptimalisatie en V-Order gaan voor meer informatie.
Ondersteunde indeling
Lakehouse ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.
- Avro-indeling
- Binaire indeling
- Tekstindeling met scheidingstekens
- Excel-indeling
- JSON-indeling
- ORC-indeling
- Parquet-indeling
- XML-indeling
Ondersteunde configuratie
Voor de configuratie van elk tabblad onder kopieeractiviteit gaat u respectievelijk naar de volgende secties.
Algemeen
Ga naar Algemeen voor de configuratie van het tabblad Algemeen.
Bron
De volgende eigenschappen worden ondersteund voor Lakehouse op het tabblad Bron van een kopieeractiviteit.
De volgende eigenschappen zijn vereist:
Verbinding: Selecteer een Lakehouse-verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Lakehouse-verbinding door onder aan de lijst met verbindingen meer te selecteren. Als u Dynamische inhoud gebruiken toepast om uw Lakehouse op te geven, voegt u een parameter toe en geeft u de Object-id van Lakehouse op als parameterwaarde. Als u uw Lakehouse-object-id wilt ophalen, opent u uw Lakehouse in uw werkruimte en bevindt de id zich na
/lakehouses/
in uw URL.Hoofdmap: Selecteer tabellen of bestanden, die de virtuele weergave van het beheerde of onbeheerde gebied in uw lake aangeeft. Raadpleeg de inleiding tot Lakehouse voor meer informatie.
Als u Tabellen selecteert:
Tabelnaam: Kies een bestaande tabel in de tabellijst of geef een tabelnaam op als bron. U kunt ook Nieuw selecteren om een nieuwe tabel te maken.
Tabel: Wanneer u Lakehouse met schema's in de verbinding toepast, kiest u een bestaande tabel met een schema in de lijst met tabellen of geeft u een tabel op met een schema als bron. U kunt ook Nieuw selecteren om een nieuwe tabel te maken met een schema. Als u geen schemanaam opgeeft, gebruikt de service dbo als het standaardschema.
Onder Geavanceerd kunt u de volgende velden opgeven:
- Tijdstempel: Geef een query op voor een oudere momentopname op tijdstempel.
- Versie: Geef een query op voor een oudere momentopname per versie.
- Aanvullende kolommen: voeg extra gegevenskolommen toe aan het relatieve pad of statische waarde van de bronbestanden van het archief. Expressie wordt ondersteund voor de laatste.
Lezer versie 1 wordt ondersteund. U vindt de bijbehorende ondersteunde Delta Lake-functies in dit artikel.
Als u Bestanden selecteert:
Bestandstype: U kunt het bestandspad, het pad naar het jokerteken of de lijst met bestanden kiezen als bestandspadtype. In de volgende lijst wordt de configuratie van elke instelling beschreven:
Bestandspad: selecteer Bladeren om het bestand te kiezen dat u wilt kopiëren of vul het pad handmatig in.
Pad naar jokertekens: geef de map of het bestandspad op met jokertekens onder het opgegeven onbeheerde gebied van Lakehouse (onder Bestanden) om uw bronmappen of bestanden te filteren. Toegestane jokertekens zijn:
*
(komt overeen met nul of meer tekens) en?
(komt overeen met nul of één teken). Gebruik^
deze optie om te escapen als uw map of bestandsnaam jokerteken of dit escape-teken bevat.Pad naar map met jokertekens: het pad naar de map onder de opgegeven container. Als u een jokerteken wilt gebruiken om de map te filteren, slaat u deze instelling over en geeft u die informatie op in de instellingen van de activiteitsbron.
Bestandsnaam met jokerteken: de bestandsnaam onder het opgegeven lakehouse-onbeheerde gebied (onder Bestanden) en het pad naar de map.
Lijst met bestanden: Geeft aan dat een bepaalde bestandsset moet worden gekopieerd.
- Mappad: verwijst naar een map die bestanden bevat die u wilt kopiëren.
- Pad naar bestandslijst: verwijst naar een tekstbestand met een lijst met bestanden die u wilt kopiëren, één bestand per regel. Dit is het relatieve pad naar het bestandspad dat is geconfigureerd.
Recursief: Geeft aan of de gegevens recursief worden gelezen uit de submappen of alleen uit de opgegeven map. Indien ingeschakeld, worden alle bestanden in de invoermap en de bijbehorende submappen recursief verwerkt. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden.
Bestandsindeling: Selecteer uw bestandsindeling in de vervolgkeuzelijst. Selecteer de knop Instellingen om de bestandsindeling te configureren. Raadpleeg voor instellingen van verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie.
Onder Geavanceerd kunt u de volgende velden opgeven:
- Filteren op laatst gewijzigd: Bestanden worden gefilterd op basis van de datums van de laatste wijziging. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden.
- Begintijd: de bestanden worden geselecteerd als de laatste wijzigingstijd groter is dan of gelijk is aan de geconfigureerde tijd.
- Eindtijd: de bestanden worden geselecteerd als de laatst gewijzigde tijd kleiner is dan de geconfigureerde tijd.
- Partitiedetectie inschakelen: geef voor bestanden die zijn gepartitioneerd op of de partities van het bestandspad moeten worden geparseerd en als extra bronkolommen moeten worden toegevoegd.
- Hoofdpad partitie: wanneer partitiedetectie is ingeschakeld, geeft u het absolute hoofdpad op om gepartitioneerde mappen als gegevenskolommen te lezen.
- Maximum aantal gelijktijdige verbindingen: geeft de bovengrens aan van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.
- Filteren op laatst gewijzigd: Bestanden worden gefilterd op basis van de datums van de laatste wijziging. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden.
Bestemming
De volgende eigenschappen worden ondersteund voor Lakehouse op het tabblad Bestemming van een kopieeractiviteit.
De volgende eigenschappen zijn vereist:
Verbinding: Selecteer een Lakehouse-verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Lakehouse-verbinding door onder aan de lijst met verbindingen meer te selecteren. Als u Dynamische inhoud gebruiken toepast om uw Lakehouse op te geven, voegt u een parameter toe en geeft u de Object-id van Lakehouse op als parameterwaarde. Als u uw Lakehouse-object-id wilt ophalen, opent u uw Lakehouse in uw werkruimte en bevindt de id zich na
/lakehouses/
in uw URL.Hoofdmap: Selecteer tabellen of bestanden, die de virtuele weergave van het beheerde of onbeheerde gebied in uw lake aangeeft. Raadpleeg de inleiding tot Lakehouse voor meer informatie.
Als u Tabellen selecteert:
Tabelnaam: Kies een bestaande tabel in de tabellijst of geef een tabelnaam op als doel. U kunt ook Nieuw selecteren om een nieuwe tabel te maken.
Tabel: Wanneer u Lakehouse met schema's in de verbinding toepast, kiest u een bestaande tabel met een schema in de lijst met tabellen of geeft u een tabel op met een schema als doel. U kunt ook Nieuw selecteren om een nieuwe tabel te maken met een schema. Als u geen schemanaam opgeeft, gebruikt de service dbo als het standaardschema.
Onder Geavanceerd kunt u de volgende velden opgeven:
Tabelacties: Geef de bewerking op voor de geselecteerde tabel.
Toevoegen: Nieuwe waarden toevoegen aan bestaande tabel.
- Partitie inschakelen: Met deze selectie kunt u partities maken in een mapstructuur op basis van een of meerdere kolommen. Elke afzonderlijke kolomwaarde (paar) is een nieuwe partitie. Bijvoorbeeld 'year=2000/month=01/file'.
- Naam van partitiekolom: selecteer uit de doelkolommen in schematoewijzing wanneer u gegevens toevoegt aan een nieuwe tabel. Wanneer u gegevens toevoegt aan een bestaande tabel met al partities, worden de partitiekolommen automatisch afgeleid van de bestaande tabel. Ondersteunde gegevenstypen zijn tekenreeks, geheel getal, Booleaanse waarde en datum/tijd. Opmaak respecteert de instellingen voor typeconversie op het tabblad Toewijzing .
- Partitie inschakelen: Met deze selectie kunt u partities maken in een mapstructuur op basis van een of meerdere kolommen. Elke afzonderlijke kolomwaarde (paar) is een nieuwe partitie. Bijvoorbeeld 'year=2000/month=01/file'.
Overschrijven: overschrijf de bestaande gegevens en het bestaande schema in de tabel met behulp van de nieuwe waarden. Als deze bewerking is geselecteerd, kunt u partitie inschakelen in de doeltabel:
- Partitie inschakelen: Met deze selectie kunt u partities maken in een mapstructuur op basis van een of meerdere kolommen. Elke afzonderlijke kolomwaarde (paar) is een nieuwe partitie. Bijvoorbeeld 'year=2000/month=01/file'.
- Naam van partitiekolom: selecteer uit de doelkolommen in schematoewijzing. Ondersteunde gegevenstypen zijn tekenreeks, geheel getal, Booleaanse waarde en datum/tijd. Opmaak respecteert de instellingen voor typeconversie op het tabblad Toewijzing .
Het biedt ondersteuning voor Delta Lake-tijdreizen. De overschreven tabel bevat deltalogboeken voor de vorige versies, waartoe u toegang hebt in uw Lakehouse. U kunt ook de vorige versietabel uit Lakehouse kopiëren door Versie op te geven in de bron van de kopieeractiviteit.
- Partitie inschakelen: Met deze selectie kunt u partities maken in een mapstructuur op basis van een of meerdere kolommen. Elke afzonderlijke kolomwaarde (paar) is een nieuwe partitie. Bijvoorbeeld 'year=2000/month=01/file'.
Maximum aantal gelijktijdige verbindingen: de bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.
Writer versie 2 wordt ondersteund. U vindt de bijbehorende ondersteunde Delta Lake-functies in dit artikel.
Als u Bestanden selecteert:
Bestandspad: selecteer Bladeren om het bestand te kiezen dat u wilt kopiëren of vul het pad handmatig in.
Bestandsindeling: Selecteer uw bestandsindeling in de vervolgkeuzelijst. Selecteer Instellingen om de bestandsindeling te configureren. Raadpleeg voor instellingen van verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie.
Onder Geavanceerd kunt u de volgende velden opgeven:
Kopieergedrag: Definieert het kopieergedrag wanneer de bron bestanden uit een bestandsgegevensarchief is. U kunt hiërarchie platmaken, bestanden samenvoegen, hiërarchie behouden of dynamische inhoud toevoegen als uw kopieergedrag. De configuratie van elke instelling is:
Platgemaakte hiërarchie: alle bestanden uit de bronmap bevinden zich op het eerste niveau van de doelmap. De doelbestanden hebben automatisch gegenereerde namen.
Bestanden samenvoegen: hiermee worden alle bestanden uit de bronmap samengevoegd tot één bestand. Als de bestandsnaam is opgegeven, is de naam van het samengevoegde bestand de opgegeven naam. Anders is het een automatisch gegenereerde bestandsnaam.
Hiërarchie behouden: behoudt de bestandshiërarchie in de doelmap. Het relatieve pad van een bronbestand naar de bronmap is identiek aan het relatieve pad van een doelbestand naar de doelmap.
Dynamische inhoud toevoegen: Als u een expressie voor een eigenschapswaarde wilt opgeven, selecteert u Dynamische inhoud toevoegen. In dit veld wordt de opbouwfunctie voor expressies geopend, waarin u expressies kunt bouwen op basis van ondersteunde systeemvariabelen, activiteitsuitvoer, functies en door de gebruiker opgegeven variabelen of parameters. Ga naar Expressies en functies voor meer informatie over de expressietaal.
Maximum aantal gelijktijdige verbindingen: de bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.
Blokgrootte (MB): geef de blokgrootte in MB op bij het schrijven van gegevens naar Lakehouse. De toegestane waarde ligt tussen 4 MB en 100 MB.
Metagegevens: aangepaste metagegevens instellen bij het kopiëren naar het doelgegevensarchief. Elk object onder de
metadata
matrix vertegenwoordigt een extra kolom. Dename
naam van de metagegevenssleutel wordt gedefinieerd en devalue
gegevenswaarde van die sleutel wordt aangegeven. Als de kenmerkfunctie behouden wordt gebruikt, worden de opgegeven metagegevens samengevoegd/overschreven met de metagegevens van het bronbestand. De toegestane gegevenswaarden zijn:
Toewijzing
Als u voor de configuratie van het tabblad Toewijzing geen Lakehouse-tabel als doelgegevensarchief toepast, gaat u naar Toewijzing.
Als u Lakehouse-tabel toepast als doelgegevensarchief, met uitzondering van de configuratie in Toewijzing, kunt u het type voor de doelkolommen bewerken. Nadat u Importschema's hebt geselecteerd, kunt u het kolomtype opgeven in uw bestemming.
Het type voor de kolom PersonID in de bron is bijvoorbeeld int en u kunt dit wijzigen in het tekenreekstype bij het toewijzen aan de doelkolom.
Notitie
Het bewerken van het doeltype wordt momenteel niet ondersteund wanneer uw bron decimaal is.
Als u Binair als bestandsindeling kiest, wordt toewijzing niet ondersteund.
Instellingen
Ga naar Instellingen voor de configuratie van het tabblad Instellingen.
Tabelsamenvatting
De volgende tabellen bevatten meer informatie over een kopieeractiviteit in Lakehouse.
Brongegevens
Name | Beschrijving | Waarde | Vereist | JSON-scripteigenschap |
---|---|---|---|---|
Verbinding | De sectie om uw verbinding te selecteren. | < uw Lakehouse-verbinding> | Ja | workspaceId artifactId |
Hoofdmap | Het type van de hoofdmap. | • Tabellen • Bestanden |
Nee | rootFolder: Tabel of bestanden |
Tabelnaam | De naam van de tabel die u wilt lezen. | <de tabelnaam> | Ja wanneer u Tabellen selecteert in de hoofdmap | table |
Tabel | De naam van de tabel met een schema dat u gegevens wilt lezen wanneer u Lakehouse met schema's als verbinding toepast. | <uw tabel met een schema> | Ja wanneer u Tabellen selecteert in de hoofdmap | / |
Voor tabel | ||||
schemanaam | De naam van het schema. | <uw schemanaam> (de standaardwaarde is dbo) |
Nee | (onder source ->datasetSettings ->typeProperties )schema |
tabelnaam | De naam van de tabel. | <de tabelnaam> | Ja | table |
Tijdstempel | De tijdstempel om een query uit te voeren op een oudere momentopname. | <tijdstempel> | Nee | timestampAsOf |
Versie | De versie om een query uit te voeren op een oudere momentopname. | <version> | Nee | versionAsOf |
Aanvullende kolommen | Aanvullende gegevenskolommen voor het opslaan van het relatieve pad of de statische waarde van bronbestanden. Expressie wordt ondersteund voor de laatste. | • Naam •Waarde |
Nee | additionalColumns: •naam •waarde |
Bestandstype | Het type van het bestandspad dat u gebruikt. | • Bestandspad • Pad naar jokertekens • Lijst met bestanden |
Ja wanneer u Bestanden in de hoofdmap selecteert | / |
Bestandspad | Kopieer van het pad naar een map/bestand onder het brongegevensarchief. | <bestandspad> | Ja bij het kiezen van bestandspad | • folderPath •Bestandsnaam |
Jokertekenpaden | Het pad naar de map met jokertekens onder het brongegevensarchief dat is geconfigureerd voor het filteren van bronmappen. | <jokertekenpaden> | Ja bij het kiezen van het pad naar het jokertekenbestand | • jokertekenFolderPath • wildcardFileName |
Mappad | Verwijst naar een map met bestanden die u wilt kopiëren. | <pad naar map> | Nee | folderPath |
Pad naar bestandslijst | Geeft aan om een bepaalde bestandsset te kopiëren. Wijs een tekstbestand aan met een lijst met bestanden die u wilt kopiëren, één bestand per regel. Dit is het relatieve pad naar het pad dat is geconfigureerd. | <pad naar bestandslijst> | Nee | fileListPath |
Recursief | Alle bestanden in de invoermap en de bijbehorende submappen recursief verwerken of alleen de bestanden in de geselecteerde map. Deze instelling is uitgeschakeld wanneer één bestand is geselecteerd. | selecteren of de selectie opheffen | Nee | recursief: waar of onwaar |
Bestandsindeling | De bestandsindeling voor uw brongegevens. Raadpleeg voor de informatie over verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie. | / | Ja wanneer u Bestanden in de hoofdmap selecteert | / |
Filteren op laatst gewijzigd | De bestanden met de laatst gewijzigde tijd in het bereik [Begintijd, Eindtijd) worden gefilterd op verdere verwerking. De tijd wordt toegepast op UTC-tijdzone in de notatie van yyyy-mm-ddThh:mm:ss.fffZ .Deze eigenschap kan worden overgeslagen, wat betekent dat er geen filter voor bestandskenmerken wordt toegepast. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden. |
• Begintijd • Eindtijd |
Nee | modifiedDatetimeStart modifiedDatetimeEnd |
Partitiedetectie inschakelen | Of u de partities van het bestandspad wilt parseren en als extra bronkolommen wilt toevoegen. | Geselecteerd of niet geselecteerd | Nee | enablePartitionDiscovery: waar of onwaar (standaard) |
Hoofdpad van partitie | Het absolute partitiehoofdpad voor het lezen van gepartitioneerde mappen als gegevenskolommen. | <uw partitiehoofdpad> | Nee | partitionRootPath |
Maximum aantal gelijktijdige verbindingen | De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Er is alleen een waarde nodig wanneer u gelijktijdige verbindingen wilt beperken. | <maximum aantal gelijktijdige verbindingen> | Nee | maxConcurrentConnections |
Doelgegevens
Name | Beschrijving | Waarde | Vereist | JSON-scripteigenschap |
---|---|---|---|---|
Verbinding | De sectie om uw verbinding te selecteren. | < uw Lakehouse-verbinding> | Ja | workspaceId artifactId |
Hoofdmap | Het type van de hoofdmap. | • Tabellen • Bestanden |
Ja | rootFolder: Tabel of bestanden |
Tabelnaam | De naam van de tabel waarnaar u gegevens wilt schrijven. | <de tabelnaam> | Ja wanneer u Tabellen selecteert in de hoofdmap | table |
Tabel | De naam van de tabel met een schema waarnaar u gegevens wilt schrijven wanneer u Lakehouse met schema's als verbinding toepast. | <uw tabel met een schema> | Ja wanneer u Tabellen selecteert in de hoofdmap | / |
Voor tabel | ||||
schemanaam | De naam van het schema. | <uw schemanaam> (de standaardwaarde is dbo) |
Nee | (onder sink ->datasetSettings ->typeProperties )schema |
tabelnaam | De naam van de tabel. | <de tabelnaam> | Ja | table |
Tabelactie | Voeg nieuwe waarden toe aan een bestaande tabel of overschrijf de bestaande gegevens en het schema in de tabel met behulp van de nieuwe waarden. | • Toevoegen • Overschrijven |
Nee | tableActionOption: Append or OverwriteSchema |
Partities inschakelen | Met deze selectie kunt u partities maken in een mapstructuur op basis van een of meer kolommen. Elke afzonderlijke kolomwaarde (paar) is een nieuwe partitie. Bijvoorbeeld 'year=2000/month=01/file'. | Geselecteerd of niet geselecteerd | Nee | partitionOption: PartitionByKey of Geen |
Partitiekolommen | De doelkolommen in schematoewijzing. | <uw partitiekolommen> | Nee | partitionNameList |
Bestandspad | Schrijf gegevens naar het pad naar een map/bestand onder het doelgegevensarchief. | <bestandspad> | Nee | • folderPath •Bestandsnaam |
Bestandsindeling | De bestandsindeling voor uw doelgegevens. Raadpleeg voor de informatie over verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie. | / | Ja wanneer u Bestanden in de hoofdmap selecteert | / |
Gedrag van kopiëren | Het kopieergedrag dat is gedefinieerd wanneer de bron bestanden is uit een gegevensarchief op basis van bestanden. | • Platgemaakte hiërarchie • Bestanden samenvoegen • Hiërarchie behouden • Dynamische inhoud toevoegen |
Nee | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Maximum aantal gelijktijdige verbindingen | De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken. | <maximum aantal gelijktijdige verbindingen> | Nee | maxConcurrentConnections |
Blokgrootte (MB) | De blokgrootte in MB die wordt gebruikt voor het schrijven van gegevens naar Lakehouse. De toegestane waarde ligt tussen 4 MB en 100 MB. | <blokgrootte> | Nee | blockSizeInMB |
Metagegevens | De aangepaste metagegevens die zijn ingesteld bij het kopiëren naar een bestemming. | • $$LASTMODIFIED •Uitdrukking • Statische waarde |
Nee | metagegevens |