Konfigurace Oracle Cloud Storage v aktivitě kopírování
Tento článek popisuje, jak pomocí aktivity kopírování v datovém kanálu kopírovat data z Oracle Cloud Storage.
Požadavky
Pokud chcete kopírovat data z Oracle Cloud Storage, přečtěte si téma Rozhraní API pro kompatibilitu Amazon S3 s objekty pro požadavky a požadovaná oprávnění.
Podporovaný formát
Oracle Cloud Storage podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.
- Formát Avro
- Binární formát
- Formát textu s oddělovači
- Formát aplikace Excel
- Formát JSON
- Formát ORC
- Formát Parquet
- Formát XML
Podporovaná konfigurace
Konfigurace každé karty aktivity kopírování najdete v následujících částech:
OBECNÉ
V případě konfigurace karty Obecné přejděte na Obecné.
Zdroj
Následující vlastnosti jsou podporovány pro Oracle Cloud Storage na kartě Zdroj aktivity kopírování.
Jsou vyžadovány následující vlastnosti:
Typ úložiště dat: Vyberte externí.
Připojení ion: Ze seznamu připojení vyberte připojení Oracle Cloud Storage. Pokud žádné připojení neexistuje, vytvořte nové připojení Oracle Cloud Storage výběrem možnosti Nový.
Typ cesty k souboru: Jako typ cesty k souboru můžete zvolit cestu k souboru, předponu, cestu k souboru se zástupnými čísly nebo seznam souborů . Konfigurace každého z těchto nastavení je:
Cesta k souboru: Data je možné zkopírovat ze zadaného kontejneru nebo cesty ke složce nebo souboru zadané v cestě k souboru.
Předpona: Zadejte kontejner a předponu.
Kbelík: Zadejte název kontejneru Oracle Cloud Storage. Je to povinné.
Předpona: Předpona pro název klíče úložiště Oracle Cloud v zadaném kontejneru pro filtrování zdrojových souborů Oracle Cloud Storage. Klíče Oracle Cloud Storage, jejichž názvy začínají
given_bucket/this_prefix
, jsou vybrány. Využívá filtr na straně služby Oracle Cloud Storage, který poskytuje lepší výkon než filtr se zástupnými cardy.
Cesta k souboru se zástupným znakem: Zadejte cesty kbelíku a zástupných znaků.
Kbelík: Zadejte název kontejneru Oracle Cloud Storage. Je to povinné.
Cesty se zástupnými znaky: Zadejte složku nebo cestu k souboru se zástupnými znaky v zadaném kontejneru a vyfiltrujte zdrojové složky nebo soubory.
Povolené zástupné znaky jsou:
*
(odpovídá nule nebo více znaků) a?
(odpovídá nule nebo jednomu znaku). Slouží^
k řídicímu znaku, pokud má název složky zástupný znak nebo tento řídicí znak uvnitř. Další příklady najdete v příkladech filtru složek a souborů.- Cesta ke složce se zástupnými znaky: Zadejte cestu ke složce se zástupnými znaky v zadaném kontejneru pro filtrování zdrojových složek.
- Název souboru se zástupnými znaky: Zadejte název souboru se zástupnými znaky v zadaném kontejneru a cestě ke složce (nebo cestu ke složce se zástupnými znaky) pro filtrování zdrojových souborů.
Seznam souborů: Zadejte cestu ke složce a cestu k seznamu souborů, které označují kopírování zadané sady souborů. Přejděte na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek, což je relativní cesta k nakonfigurované cestě. Další příklady najdete v příkladech se seznamem souborů.
- Cesta ke složce: Zadejte cestu ke složce v zadaném kontejneru. Je to povinné.
- Cesta k seznamu souborů: Zadejte cestu k textovému souboru, který obsahuje seznam souborů, které chcete kopírovat.
Rekurzivně: Označuje, jestli se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Pokud je toto políčko zaškrtnuté a cílem je úložiště založené na souborech, prázdná složka nebo podsložka se v cíli nezkopíruje ani nevytvořila.
Formát souboru: Vyberte formát souboru použitý v rozevíracím seznamu. Vyberte Nastavení a nakonfigurujte formát souboru. Nastavení různých formátů souborů najdete v článcích v podporovaném formátu.
V části Upřesnit můžete zadat následující pole:
Filtrovat podle poslední změny: Soubory se filtrují na základě data poslední změny, která jste zadali. Tato vlastnost se nepoužije při konfiguraci typu cesty k souboru jako seznam souborů.
- Čas zahájení (UTC): Soubory se vyberou, pokud je jejich čas poslední změny větší nebo roven nakonfigurovanému času.
- Čas ukončení (UTC): Soubory se vyberou, pokud je jejich čas poslední změny kratší než nakonfigurovaný čas.
Pokud má počáteční čas (UTC) hodnotu datetime, ale koncový čas (UTC) má hodnotu NULL, znamená to, že jsou vybrané soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime. Pokud má koncový čas (UTC) hodnotu datetime, ale počáteční čas (UTC) má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je menší než hodnota datetime, jsou vybrány. Vlastnosti můžou mít hodnotu NULL, což znamená, že na data se nepoužije žádný filtr atributů souboru.
Povolit zjišťování oddílů: Určete, jestli se mají analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce. Ve výchozím nastavení není vybraná a nepodporuje se při použití binárního formátu souboru.
Kořenová cesta oddílu: Pokud je povolené zjišťování oddílů, zadejte absolutní kořenovou cestu ke čtení dělených složek jako datových sloupců.
Pokud není zadaný, ve výchozím nastavení:
- Při použití cesty k souboru nebo seznamu souborů ve zdroji je kořenová cesta oddílu cesta, kterou jste nakonfigurovali.
- Pokud použijete filtr složky se zástupnými otazemi, kořenová cesta oddílu je dílčí cesta před prvním zástupným znakem.
- Při použití předpony je kořenová cesta oddílu dílčí cestou před posledním "/".
Předpokládejme například, že cestu nakonfigurujete takto
root/folder/year=2020/month=08/day=27
:- Pokud jako kořenovou cestu
root/folder/year=2020
oddílu zadáte, aktivita kopírování vygeneruje dva další sloupce, měsíc a den. Tyto sloupce mají kromě sloupců v souborech také hodnoty 08 a 27. - Pokud není zadaná kořenová cesta oddílu, nevygeneruje se žádný další sloupec.
Maximální počet souběžných připojení: Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení.
Další sloupce: Přidejte další datové sloupce pro uložení relativní cesty nebo statické hodnoty zdrojových souborů. U druhého výrazu se podporuje.
mapování.
Konfigurace karty Mapování naleznete v části Konfigurace mapování na kartě Mapování. Pokud jako formát souboru zvolíte Binary , mapování se nepodporuje.
Nastavení
Konfigurace karty Nastavení naleznete v části Konfigurace dalších nastavení na kartě Nastavení.
Souhrn tabulky
Následující tabulka obsahuje další informace o aktivitě kopírování v Oracle Cloud Storage.
Informace o zdroji
Název | Popis | Hodnota | Povinní účastníci | Vlastnost skriptu JSON |
---|---|---|---|---|
Typ úložiště dat | Váš typ úložiště dat. | Externí | Ano | / |
Připojení | Vaše připojení ke zdrojovému úložišti dat. | <připojení Oracle Cloud Storage> | Ano | připojení |
Typ cesty k souboru | Typ cesty k souboru sloužící k získání zdrojových dat. | • Cesta k souboru • Předpona • Cesta k souboru se zástupným znakem • Seznam souborů |
Ano | / |
Cesta k souboru | ||||
Kbelík | Název kontejneru Oracle Cloud Storage. | <název kontejneru> | Ano | bucketName |
Adresář | Cesta ke složce v zadaném kontejneru. | <název složky> | No | folderpath |
Název souboru | Název souboru v zadaném kontejneru a cestě ke složce. | <název souboru> | No | fileName |
Pro předponu | ||||
Kbelík | Název kontejneru Oracle Cloud Storage. | <název kontejneru> | Ano | bucketName |
Předponu | Předpona pro název klíče úložiště Oracle Cloud v zadaném kontejneru pro filtrování zdrojových souborů Oracle Cloud Storage. | <vaše předpona> | No | Předponu |
Cesta k souboru se zástupným znakem | ||||
Kbelík | Název kontejneru Oracle Cloud Storage. | <název kontejneru> | Ano | bucketName |
Cesta ke složce se zástupným znakem | Cesta ke složce se zástupnými znaky v zadaném kontejneru pro filtrování zdrojových složek. | <cesta ke složce se zástupnými znaky> | No | Zástupný znakFolderPath |
Název souboru se zástupným znakem | Název souboru se zástupnými znaky v zadaném kontejneru a cestě ke složce (nebo cestu ke složce se zástupnými znaky) pro filtrování zdrojových souborů. | <název souboru se zástupnými znaky> | Ano | wildcardFileName |
Seznam souborů | ||||
Kbelík | Název kontejneru Oracle Cloud Storage. | <název kontejneru> | Ano | bucketName |
Adresář | Cesta ke složce v zadaném kontejneru. | <název složky> | No | folderpath |
Cesta k seznamu souborů | Označuje, že chcete zkopírovat zadanou sadu souborů. Přejděte na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek. | < Cesta k seznamu souborů > | No | fileListPath |
Formát souboru | Formát souboru pro zdrojová data. Informace o různých formátech souborů najdete v článcích v podporovaném formátu. | / | Ano | / |
Rekurzivně | Určuje, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Pokud je toto políčko zaškrtnuté a cílem je úložiště založené na souborech, prázdná složka nebo podsložka se v cíli nezkopíruje ani nevytvořila. | selected (default) or unselect | No | Rekurzivní |
Filtrovat podle poslední změny | Soubory s časem poslední změny v rozsahu [Počáteční čas, Koncový čas) se filtrují pro další zpracování. Čas se použije u časového pásma UTC ve formátu yyyy-mm-ddThh:mm:ss.fffZ . Tyto vlastnosti je možné přeskočit, což znamená, že se nepoužije filtr atributů souboru. Tato vlastnost se nepoužije při konfiguraci typu cesty k souboru jako seznam souborů. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Povolení zjišťování oddílů | Určuje, zda chcete analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce. | vybraná nebo nevybraná (výchozí) | No | enablePartitionDiscovery: true nebo false (výchozí) |
Kořenová cesta oddílů | Pokud je povoleno zjišťování oddílů, zadejte absolutní kořenovou cestu ke čtení dělených složek jako sloupce dat. | < kořenová cesta oddílu > | No | partitionRootPath |
Maximální počet souběžných připojení | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. | <maximální počet souběžných připojení> | No | maxConcurrent Připojení ions |
Další sloupce | Přidejte další datové sloupce, do kterých se uloží relativní cesta ke zdrojovým souborům nebo statická hodnota. U druhého výrazu se podporuje. | • Jméno •Hodnotu |
No | additionalColumns: •Jméno •Hodnotu |