Amazon S3 Compatibel configureren in een kopieeractiviteit
In dit artikel wordt beschreven hoe u de kopieeractiviteit in een gegevenspijplijn gebruikt om gegevens te kopiëren van Amazon S3 Compatibel.
Vereiste machtigingen
Als u gegevens wilt kopiëren van Amazon S3 Compatible, moet u ervoor zorgen dat u de volgende machtigingen hebt gekregen voor bewerkingen van Amazon S3-compatibele objecten: s3:GetObject
en s3:GetObjectVersion
.
Daarnaast s3:ListAllMyBuckets
s3:ListBucket
/s3:GetBucketLocation
zijn machtigingen vereist voor bewerkingen zoals het testen van verbinding en bladeren vanuit de hoofdmap.
Voor de volledige lijst met amazon S3-compatibele machtigingen gaat u naar Machtigingen opgeven in een beleid op de AWS-site.
Ondersteunde indeling
Amazon S3 Compatible ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.
- Avro-indeling
- Binaire indeling
- Tekstindeling met scheidingstekens
- Excel-indeling
- JSON-indeling
- ORC-indeling
- Parquet-indeling
- XML-indeling
Ondersteunde configuratie
Voor de configuratie van elk tabblad onder kopieeractiviteit gaat u respectievelijk naar de volgende secties.
Algemeen
Raadpleeg de richtlijnen voor algemene instellingen voor het configureren van het tabblad Algemene instellingen.
Bron
De volgende eigenschappen worden ondersteund voor Amazon S3 Compatibel onder het tabblad Bron van een kopieeractiviteit.
De volgende eigenschappen zijn vereist:
Gegevensarchieftype: Selecteer Extern.
Verbinding maken ion: Selecteer een Amazon S3-compatibele verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Amazon S3-compatibele verbinding door Nieuw te selecteren.
Verbinding maken iontype: Selecteer Amazon S3 Compatibel voor uw verbindingstype.
Bestandstype: U kunt het bestandspad, het voorvoegsel, het pad naar het jokerteken of de lijst met bestanden kiezen als bestandspadtype. De configuratie voor elke instelling is:
Bestandspad: Als u dit type kiest, kunnen de gegevens worden gekopieerd uit de opgegeven bucket of het opgegeven bucket- en mappad.
Voorvoegsel: Als u dit type kiest, geeft u de bucket en het voorvoegsel op.
Bucket: Geef de naam van de S3-compatibele opslagbucket op. Het is vereist.
Voorvoegsel: Geef het voorvoegsel op voor de naam van de S3 Compatibele opslagsleutel onder de opgegeven bucket om bron-S3 Compatibele opslagbestanden te filteren. S3 Compatibele opslagsleutels waarvan de namen beginnen met
bucket/this_prefix
zijn geselecteerd. Het maakt gebruik van het servicefilter van S3 Compatible Storage, dat betere prestaties biedt dan een jokertekenfilter.Wanneer u voorvoegsel gebruikt en ervoor kiest om te kopiëren naar een op bestanden gebaseerde bestemming met behoud van de hiërarchie, moet u het subpad na het laatste '/'-voorvoegsel behouden. U hebt bijvoorbeeld bron
bucket/folder/subfolder/file.txt
en configureer het voorvoegsel alsfolder/sub
, dan issubfolder/file.txt
het behouden bestandspad .
Pad naar jokertekens: Als u dit type kiest, geeft u de paden Bucket en Jokerteken op.
Bucket: Geef de naam van de S3-compatibele opslagbucket op. Het is vereist.
Jokertekenpaden: geef de map of het bestandspad op met jokertekens onder uw opgegeven bucket om uw bronmappen of bestanden te filteren.
Toegestane jokertekens zijn:
*
(komt overeen met nul of meer tekens) en?
(komt overeen met nul of één teken). Gebruik^
deze optie om te escapen als uw mapnaam jokerteken of dit escape-teken bevat. Bekijk meer voorbeelden in voorbeelden van mappen en bestandsfilters. Pad naar jokertekens: het pad naar de map met jokertekens onder de opgegeven bucket om bronmappen te filteren.Bestandsnaam met jokertekens: de bestandsnaam met jokertekens onder het opgegeven bucket- en mappad (of pad naar jokertekens) om bronbestanden te filteren.
Lijst met bestanden: Als u dit type kiest, geeft u het mappad en het pad naar de bestandslijst op om aan te geven dat een bepaalde bestandsset moet worden gekopieerd. Wijs een tekstbestand aan met een lijst met bestanden die u wilt kopiëren, één bestand per regel. Dit is het relatieve pad naar het pad dat is geconfigureerd. Ga naar Voorbeelden van bestandslijsten voor meer voorbeelden.
- Mappad: Geef het pad naar de map onder de opgegeven bucket op. Het is vereist.
- Pad naar bestandslijst: geef het pad op van het tekstbestand dat een lijst met bestanden bevat die u wilt kopiëren.
Bestandsindeling: Selecteer de bestandsindeling die is toegepast in de vervolgkeuzelijst. Selecteer Instellingen om de bestandsindeling te configureren. Raadpleeg voor instellingen van verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie.
Recursief: geef aan of de gegevens recursief worden gelezen uit de submappen of alleen uit de opgegeven map. Wanneer Recursief is geselecteerd en het doel een archief op basis van bestanden is, wordt een lege map of submap niet gekopieerd of gemaakt op het doel. Deze eigenschap is standaard geselecteerd en is niet van toepassing wanneer u Pad naar bestandslijst configureert.
Onder Geavanceerd kunt u de volgende velden opgeven:
Filteren op laatst gewijzigd: Bestanden worden gefilterd op basis van de datums die u voor het laatst hebt opgegeven. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden.
- Begintijd (UTC): de bestanden worden geselecteerd als de laatste wijzigingstijd groter is dan of gelijk is aan de geconfigureerde tijd.
- Eindtijd (UTC): de bestanden worden geselecteerd als de laatste wijzigingstijd kleiner is dan de geconfigureerde tijd.
Wanneer de begintijd (UTC) datum/tijd heeft, maar de eindtijd (UTC) NULL is, betekent dit dat de bestanden waarvan het kenmerk voor het laatst is gewijzigd groter is dan of gelijk is aan de datum/tijd-waarde wordt geselecteerd. Wanneer de eindtijd (UTC) datum/tijd heeft, maar de begintijd (UTC) NULL is, betekent dit dat de bestanden waarvan het kenmerk voor het laatst is gewijzigd kleiner is dan de datum/tijd-waarde wordt geselecteerd. De eigenschappen kunnen NULL zijn, wat betekent dat er geen bestandskenmerkfilter wordt toegepast op de gegevens.
Partitiedetectie inschakelen: geef op of de partities van het bestandspad moeten worden geparseerd en als extra bronkolommen moeten worden toegevoegd. Deze optie wordt standaard niet geselecteerd en wordt niet ondersteund wanneer u binaire bestandsindeling gebruikt.
Hoofdpad partitie: wanneer partitiedetectie is ingeschakeld, geeft u het absolute hoofdpad op om gepartitioneerde mappen als gegevenskolommen te lezen.
Als deze niet is opgegeven, is dit standaard het volgende:
- Wanneer u het bestandspad of de lijst met bestanden op de bron gebruikt, is het pad naar de partitiehoofdmap dat u hebt geconfigureerd.
- Wanneer u het filter voor jokertekens gebruikt, is het hoofdpad van de partitie het subpad vóór het eerste jokerteken.
- Wanneer u voorvoegsel gebruikt, is het hoofdpad van de partitie vóór het laatste '/'.
Stel dat u het pad configureert als
root/folder/year=2020/month=08/day=27
:- Als u het hoofdpad van de partitie opgeeft als
root/folder/year=2020
, genereert de kopieeractiviteit twee kolommen maand en dag met respectievelijk de waarde 08 en 27, naast de kolommen in de bestanden. - Als het pad naar de partitiehoofdmap niet is opgegeven, wordt er geen extra kolom gegenereerd.
Maximale gelijktijdige verbinding: de bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.
Aanvullende kolommen: voeg extra gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. Expressie wordt ondersteund voor de laatste.
Doel
De volgende eigenschappen worden ondersteund voor Amazon S3 Compatibel onder het tabblad Bestemming van een kopieeractiviteit.
De volgende eigenschappen zijn vereist:
- Gegevensarchieftype: Selecteer Extern.
- Verbinding maken ion: Selecteer een Amazon S3-compatibele verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Amazon S3-compatibele verbinding door Nieuw te selecteren.
- Verbinding maken iontype: Selecteer Amazon S3 Compatibel voor uw verbindingstype.
- Bestandspad: De gegevens kunnen worden gekopieerd naar de opgegeven bucket of het opgegeven pad naar de opgegeven bucket en map.
- Bestandsindeling: Selecteer de bestandsindeling die is toegepast in de vervolgkeuzelijst. Selecteer Instellingen om de bestandsindeling te configureren. Raadpleeg voor instellingen van verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie.
Onder Geavanceerd kunt u de volgende velden opgeven:
Kopieergedrag: Definieert het kopieergedrag wanneer de bron bestanden uit een bestandsgegevensarchief is. U kunt een gedrag kiezen in de vervolgkeuzelijst.
- Platgemaakte hiërarchie: alle bestanden uit de bronmap bevinden zich op het eerste niveau van de doelmap. De doelbestanden hebben automatisch gegenereerde namen.
- Bestanden samenvoegen: hiermee worden alle bestanden uit de bronmap samengevoegd tot één bestand. Als de bestandsnaam is opgegeven, is de naam van het samengevoegde bestand de opgegeven naam. Anders is het een automatisch gegenereerde bestandsnaam.
- Hiërarchie behouden: behoudt de bestandshiërarchie in de doelmap. Het relatieve pad van het bronbestand naar de bronmap is identiek aan het relatieve pad van het doelbestand naar de doelmap.
Maximum aantal gelijktijdige verbindingen: deze eigenschap geeft de bovengrens aan van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.
Toewijzing
Voor de configuratie van het tabblad Toewijzing gaat u naar De toewijzingen configureren onder het tabblad Toewijzing. Als u Binair als bestandsindeling kiest, wordt toewijzing niet ondersteund.
Instellingen
Ga voor de configuratie van het tabblad Instellingen naar De andere instellingen configureren op het tabblad Instellingen.
Tabelsamenvatting
De volgende tabellen bevatten meer informatie over de kopieeractiviteit in Amazon S3 Compatible.
Brongegevens
Name | Beschrijving | Waarde | Vereist | JSON-scripteigenschap |
---|---|---|---|---|
Gegevensarchieftype | Het gegevensarchieftype. | Extern | Ja | / |
Verbinding | Uw verbinding met het brongegevensarchief. | <uw Amazon S3-compatibele verbinding> | Ja | verbinding |
Verbindingstype | Selecteer een type voor uw verbinding. | Amazon S3 compatibel | Ja | / |
Bestandstype | Het bestandstype dat wordt gebruikt om brongegevens op te halen. | • Bestandspad • Voorvoegsel • Pad naar jokertekens • Lijst met bestanden |
Ja | / |
Voor bestandspad | ||||
Emmer | De naam van de S3-compatibele opslagbucket. | <de naam van uw bucket> | Ja | bucketName |
Directory | Het pad naar de map onder de opgegeven bucket. | <de naam van uw map> | Nee | mappad |
Bestandsnaam | De bestandsnaam onder het opgegeven bucket- en mappad. | <uw bestandsnaam> | Nee | fileName |
Voor voorvoegsel | ||||
Emmer | De naam van de S3-compatibele opslagbucket. | <de naam van uw bucket> | Ja | bucketName |
Voorvoegsel | Het voorvoegsel voor de naam van de S3 Compatibele opslagsleutel onder de opgegeven bucket om bron-S3 Compatibele opslagbestanden te filteren. | <uw voorvoegsel> | Nee | Voorvoegsel |
Voor pad naar jokertekens | ||||
Emmer | De naam van de S3-compatibele opslagbucket. | <de naam van uw bucket> | Ja | bucketName |
Pad naar map met jokertekens | Het pad naar de map met jokertekens onder de opgegeven bucket om bronmappen te filteren. | <uw mappad met jokertekens> | Nee | wildcardFolderPath |
Bestandsnaam van jokerteken | De bestandsnaam met jokertekens onder het opgegeven bucket- en mappad (of pad naar een jokerteken) om bronbestanden te filteren. | <uw bestandsnaam met jokertekens> | Ja | jokertekenBestandName |
Voor Lijst met bestanden | ||||
Emmer | De naam van de S3-compatibele opslagbucket. | <de naam van uw bucket> | Ja | bucketName |
Directory | Het pad naar de map onder de opgegeven bucket. | <de naam van uw map> | Nee | mappad |
Pad naar bestandslijst | Geeft aan om een bepaalde bestandsset te kopiëren. Wijs een tekstbestand aan met een lijst met bestanden die u wilt kopiëren, één bestand per regel. | < bestandslijstpad > | Nee | fileListPath |
Bestandsindeling | De bestandsindeling voor uw brongegevens. Raadpleeg voor de informatie over verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie. | / | Ja | / |
Recursief | Hiermee wordt aangegeven of de gegevens recursief worden gelezen uit de submappen of alleen uit de opgegeven map. Wanneer Recursief is geselecteerd en het doel een archief op basis van bestanden is, wordt een lege map of submap niet gekopieerd of gemaakt op het doel. Deze eigenschap is niet van toepassing wanneer u Pad naar bestandslijst configureert. | geselecteerd (standaard) of selectie opheffen | Nee | Recursieve |
Filteren op laatst gewijzigd | De bestanden met de laatst gewijzigde tijd in het bereik [Begintijd, Eindtijd) worden gefilterd op verdere verwerking. De tijd wordt toegepast op de UTC-tijdzone in de notatie van yyyy-mm-ddThh:mm:ss.fffZ . Deze eigenschappen kunnen worden overgeslagen. Dit betekent dat er geen filter voor bestandskenmerken wordt toegepast. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden. |
datetime | Nee | modifiedDatetimeStart modifiedDatetimeEnd |
Partitiedetectie inschakelen | Geeft aan of de partities van het bestandspad moeten worden geparseerd en als extra bronkolommen moeten worden toegevoegd. | geselecteerd of niet geselecteerd (standaard) | Nee | enablePartitionDiscovery: waar of onwaar (standaard) |
Hoofdpad van partitie | Wanneer partitiedetectie is ingeschakeld, geeft u het absolute hoofdpad op om gepartitioneerde mappen als gegevenskolommen te lezen. | < uw partitiehoofdpad > | Nee | partitionRootPath |
Maximale gelijktijdige verbinding | De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken. | <maximum aantal gelijktijdige verbindingen> | Nee | maxConcurrent Verbinding maken ions |
Aanvullende kolommen | Voeg extra gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. Expressie wordt ondersteund voor de laatste. | • Naam •Waarde |
Nee | additionalColumns: •Naam •Waarde |
Doelgegevens
Name | Beschrijving | Waarde | Vereist | JSON-scripteigenschap |
---|---|---|---|---|
Gegevensarchieftype | Het gegevensarchieftype. | Extern | Ja | / |
Verbinding | Uw verbinding met het doelgegevensarchief. | <uw Amazon S3-compatibele verbinding> | Ja | verbinding |
Verbindingstype | Selecteer een type voor uw verbinding. | Amazon S3 compatibel | Ja | / |
Bestandspad | Het pad naar de map/het bestandspad naar het doelbestand. | <map/bestandspad> | Ja | / |
Emmer | De naam van de S3-compatibele opslagbucket. | <de naam van uw bucket> | Ja | bucketName |
Directory | Het pad naar de map onder de opgegeven bucket. | <de naam van uw map> | Nee | mappad |
Bestandsnaam | De bestandsnaam onder het opgegeven bucket- en mappad. | <uw bestandsnaam> | Nee | fileName |
Gedrag van kopiëren | Definieert het kopieergedrag wanneer de bron bestanden is uit een gegevensarchief op basis van bestanden. | • Platgemaakte hiërarchie • Bestanden samenvoegen • Hiërarchie behouden |
Nee | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Maximum aantal gelijktijdige verbindingen | De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken. | <maximum aantal gelijktijdige verbindingen> | Nee | maxConcurrent Verbinding maken ions |