Kopírování dat ze služby Azure Files nebo do služby Azure Files pomocí služby Azure Data Factory
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Tento článek popisuje, jak kopírovat data do a ze služby Azure Files. Další informace o službě Azure Data Factory najdete v úvodním článku.
Podporované funkce
Tento konektor Azure Files je podporovaný pro následující funkce:
Podporované funkce | IR | Spravovaný privátní koncový bod |
---|---|---|
aktivita Copy (zdroj/jímka) | (1) (2) | – Vyloučení účtu úložiště V1 |
Aktivita Lookup | (1) (2) | – Vyloučení účtu úložiště V1 |
Aktivita GetMetadata | (1) (2) | – Vyloučení účtu úložiště V1 |
Aktivita odstranění | (1) (2) | – Vyloučení účtu úložiště V1 |
(1) Prostředí Azure Integration Runtime (2) Místní prostředí Integration Runtime
Data ze služby Azure Files můžete kopírovat do libovolného podporovaného úložiště dat jímky nebo kopírovat data z libovolného podporovaného zdrojového úložiště dat do služby Azure Files. Seznam úložišť dat, která aktivita kopírování podporuje jako zdroje a jímky, najdete v tématu Podporované úložiště a formáty dat.
Konkrétně tento konektor Azure Files podporuje:
- Kopírování souborů pomocí klíče účtu nebo ověřování sdíleného přístupového podpisu (SAS)
- Kopírování souborů tak, jak je, nebo parsování nebo generování souborů s podporovanými formáty souborů a komprimačními kodeky.
Začínáme
K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:
- Nástroj pro kopírování dat
- Azure Portal
- Sada .NET SDK
- Sada Python SDK
- Azure PowerShell
- Rozhraní REST API
- Šablona Azure Resource Manageru
Vytvoření propojené služby se službou Azure Files pomocí uživatelského rozhraní
Pomocí následujícího postupu vytvořte propojenou službu se službou Azure Files v uživatelském rozhraní webu Azure Portal.
Přejděte na kartu Správa v pracovním prostoru Azure Data Factory nebo Synapse a vyberte Propojené služby a pak klikněte na Nový:
Vyhledejte soubor a vyberte konektor pro Azure Files s popiskem Azure File Storage.
Nakonfigurujte podrobnosti o službě, otestujte připojení a vytvořte novou propojenou službu.
Podrobnosti konfigurace konektoru
Následující části obsahují podrobnosti o vlastnostech, které se používají k definování entit specifických pro Službu Azure Files.
Vlastnosti propojené služby
Konektor Azure Files podporuje následující typy ověřování. Podrobnosti najdete v odpovídajících částech.
- Ověřování pomocí klíče účtu
- Ověřování pomocí sdíleného přístupového podpisu
- Ověřování spravované identity přiřazené systémem
- Ověřování spravované identity přiřazené uživatelem
Poznámka:
Pokud jste používali propojenou službu Azure Files se starší verzí modelu, kde se v uživatelském rozhraní pro vytváření ADF zobrazovalo jako Základní ověřování, je stále podporováno stejně, i když navrhujete používat nový model. Starší verze modelu přenáší data z/do úložiště přes protokol SMB (Server Message Block), zatímco nový model využívá sadu SDK úložiště, která má lepší propustnost. Pokud chcete upgradovat, můžete upravit propojenou službu a přepnout metodu ověřování na klíč účtu nebo identifikátor URI SAS. u datové sady nebo aktivity kopírování není potřeba žádná změna.
Ověřování pomocí klíče účtu
Služba Data Factory podporuje následující vlastnosti ověřování pomocí klíče účtu služby Azure Files:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu musí být nastavena na: AzureFileStorage. | Ano |
připojovací řetězec | Zadejte informace potřebné pro připojení ke službě Azure Files. Klíč účtu můžete také vložit do služby Azure Key Vault a vytáhnout accountKey konfiguraci z připojovací řetězec. Další informace najdete v následujících ukázkách a přihlašovacích údajích pro Store v článku o službě Azure Key Vault . |
Ano |
fileShare | Zadejte sdílenou složku. | Ano |
Snímek | Zadejte datum snímku sdílené složky, pokud chcete kopírovat ze snímku. | No |
connectVia | Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat umístěné v privátní síti). Pokud není zadaný, použije výchozí prostředí Azure Integration Runtime. | No |
Příklad:
{
"name": "AzureFileStorageLinkedService",
"properties": {
"type": "AzureFileStorage",
"typeProperties": {
"connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountName>;AccountKey=<accountKey>;EndpointSuffix=core.windows.net;",
"fileShare": "<file share name>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Příklad: Uložení klíče účtu ve službě Azure Key Vault
{
"name": "AzureFileStorageLinkedService",
"properties": {
"type": "AzureFileStorage",
"typeProperties": {
"connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;",
"fileShare": "<file share name>",
"accountKey": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Ověřování pomocí sdíleného přístupového podpisu
Sdílený přístupový podpis poskytuje delegovaný přístup k prostředkům ve vašem účtu úložiště. Sdílený přístupový podpis můžete použít k udělení omezených oprávnění klienta k objektům ve vašem účtu úložiště po určitou dobu. Další informace o sdílených přístupových podpisech najdete v tématu Sdílené přístupové podpisy: Vysvětlení modelu sdíleného přístupového podpisu.
Služba podporuje následující vlastnosti pro použití ověřování pomocí sdíleného přístupového podpisu:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu musí být nastavena na: AzureFileStorage. | Ano |
sasUri | Zadejte identifikátor URI sdíleného přístupového podpisu k prostředkům. Označte toto pole jako SecureString , abyste ho bezpečně uložili. Token SAS můžete také vložit do služby Azure Key Vault, abyste mohli použít automatickou rotaci a odebrat část tokenu. Další informace najdete v následujících ukázkách a ukládání přihlašovacích údajů ve službě Azure Key Vault. |
Ano |
fileShare | Zadejte sdílenou složku. | Ano |
Snímek | Zadejte datum snímku sdílené složky, pokud chcete kopírovat ze snímku. | No |
connectVia | Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat umístěné v privátní síti). Pokud není zadaný, použije výchozí prostředí Azure Integration Runtime. | No |
Příklad:
{
"name": "AzureFileStorageLinkedService",
"properties": {
"type": "AzureFileStorage",
"typeProperties": {
"sasUri": {
"type": "SecureString",
"value": "<SAS URI of the resource e.g. https://<accountname>.file.core.windows.net/?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
},
"fileShare": "<file share name>",
"snapshot": "<snapshot version>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Příklad: Uložení tokenu SAS ve službě Azure Key Vault
{
"name": "AzureFileStorageLinkedService",
"properties": {
"type": "AzureFileStorage",
"typeProperties": {
"sasUri": {
"type": "SecureString",
"value": "<SAS URI of the Azure Storage resource without token e.g. https://<accountname>.file.core.windows.net/>"
},
"sasToken": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName with value of SAS token e.g. ?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
},
"fileShare": "<file share name>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Ověřování spravované identity přiřazené systémem
Datovou továrnu nebo kanál Synapse je možné přidružit ke spravované identitě přiřazené systémem pro prostředky Azure, což představuje tento prostředek pro ověřování v jiných službách Azure. Tuto spravovanou identitu přiřazenou systémem můžete použít k ověřování azure Files. Další informace o spravovaných identitách pro prostředky Azure najdete v tématu Spravované identity pro prostředky Azure.
Pokud chcete použít ověřování spravované identity přiřazené systémem, postupujte takto:
Načtěte informace o spravované identitě přiřazené systémem zkopírováním hodnoty ID objektu spravované identity přiřazené systémem spolu s vaším objektem pro vytváření nebo pracovní prostor Synapse.
Udělte spravované identitě oprávnění ve službě Azure Files. Další informace o rolích najdete v tomto článku.
- Jako zdroj udělte v řízení přístupu (IAM) alespoň roli privilegované čtečky dat souboru úložiště.
- Jako jímku udělte v řízení přístupu (IAM) alespoň roli privilegovaného přispěvatele dat souboru úložiště.
Pro propojenou službu Azure Files se podporují tyto vlastnosti:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu musí být nastavena na AzureFileStorage. | Ano |
serviceEndpoint | Zadejte koncový bod služby Azure Files se vzorem https://<accountName>.file.core.windows.net/ . |
Ano |
fileShare | Zadejte sdílenou složku. | Ano |
Snímek | Zadejte datum snímku sdílené složky, pokud chcete kopírovat ze snímku. | No |
connectVia | Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration Runtime. Pokud není zadaný, použije výchozí prostředí Azure Integration Runtime. | No |
Poznámka:
Ověřování spravované identity přiřazené systémem podporuje pouze prostředí Azure Integration Runtime.
Příklad:
{
"name": "AzureFileStorageLinkedService",
"properties": {
"type": "AzureFileStorage",
"typeProperties": {
"serviceEndpoint": "https://<accountName>.file.core.windows.net/",
"fileShare": "<file share name>",
"snapshot": "<snapshot version>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Ověřování spravované identity přiřazené uživatelem
Datovou továrnu je možné přiřadit pomocí jedné nebo několika spravovaných identit přiřazených uživatelem. Tuto spravovanou identitu přiřazenou uživatelem můžete použít pro ověřování azure Files, která umožňuje přístup k datům a jejich kopírování z nebo do služby Soubory Azure. Další informace o spravovaných identitách pro prostředky Azure najdete v tématu Spravované identity pro prostředky Azure.
Pokud chcete použít ověřování spravované identity přiřazené uživatelem, postupujte takto:
Vytvořte jednu nebo více spravovaných identit přiřazených uživatelem a udělte oprávnění ve službě Azure Files. Další informace o rolích najdete v tomto článku.
- Jako zdroj udělte v řízení přístupu (IAM) alespoň roli privilegované čtečky dat souboru úložiště.
- Jako jímku udělte v řízení přístupu (IAM) alespoň roli privilegovaného přispěvatele dat souboru úložiště.
Přiřaďte k datové továrně jednu nebo více spravovaných identit přiřazených uživatelem a vytvořte přihlašovací údaje pro každou spravovanou identitu přiřazenou uživatelem.
Pro propojenou službu Azure Files se podporují tyto vlastnosti:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu musí být nastavena na AzureFileStorage. | Ano |
serviceEndpoint | Zadejte koncový bod služby Azure Files se vzorem https://<accountName>.file.core.windows.net/ . |
Ano |
přihlašovací údaje | Jako objekt přihlašovacích údajů zadejte spravovanou identitu přiřazenou uživatelem. | Ano |
fileShare | Zadejte sdílenou složku. | Ano |
Snímek | Zadejte datum snímku sdílené složky, pokud chcete kopírovat ze snímku. | No |
connectVia | Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat umístěné v privátní síti). Pokud není zadaný, použije výchozí prostředí Azure Integration Runtime. | No |
Příklad:
{
"name": "AzureFileStorageLinkedService",
"properties": {
"type": "AzureFileStorage",
"typeProperties": {
"serviceEndpoint": "https://<accountName>.file.core.windows.net/",
"credential": {
"referenceName": "credential1",
"type": "CredentialReference"
},
"fileShare": "<file share name>",
"snapshot": "<snapshot version>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Starší verze modelu
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu musí být nastavena na: AzureFileStorage. | Ano |
host | Určuje koncový bod Azure Files jako: -Using UI: specify \\<storage name>.file.core.windows.net\<file service name> - Pomocí JSON: "host": "\\\\<storage name>.file.core.windows.net\\<file service name>" . |
Ano |
userid | Zadejte uživatele pro přístup ke službě Azure Files jako: -Using UI: specify AZURE\<storage name> -Using JSON: "userid": "AZURE\\<storage name>" . |
Ano |
Heslo | Zadejte přístupový klíč úložiště. Označte toto pole jako securestring pro bezpečné uložení ve službě Data Factory nebo odkazování na tajný klíč uložený ve službě Azure Key Vault. | Ano |
connectVia | Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat umístěné v privátní síti). Pokud není zadaný, použije výchozí prostředí Azure Integration Runtime. | Ne pro zdroj, Ano pro jímku |
Příklad:
{
"name": "AzureFileStorageLinkedService",
"properties": {
"type": "AzureFileStorage",
"typeProperties": {
"host": "\\\\<storage name>.file.core.windows.net\\<file service name>",
"userid": "AZURE\\<storage name>",
"password": {
"type": "SecureString",
"value": "<storage access key>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Vlastnosti datové sady
Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku Datové sady .
Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.
- Formát Avro
- Binární formát
- Formát textu s oddělovači
- Formát aplikace Excel
- Formát JSON
- Formát ORC
- Formát Parquet
- Formát XML
Soubory Azure v location
nastavení v datové sadě založené na formátu podporují následující vlastnosti:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost location typu v datové sadě musí být nastavena na AzureFileStorageLocation. |
Ano |
folderPath | Cesta ke složce. Pokud chcete k filtrování složky použít zástupný znak, přeskočte toto nastavení a zadejte v nastavení zdroje aktivity. | No |
fileName | Název souboru v dané cestě folderPath. Pokud chcete k filtrování souborů použít zástupný znak, přeskočte toto nastavení a zadejte v nastavení zdroje aktivity. | No |
Příklad:
{
"name": "DelimitedTextDataset",
"properties": {
"type": "DelimitedText",
"linkedServiceName": {
"referenceName": "<Azure File Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, auto retrieved during authoring > ],
"typeProperties": {
"location": {
"type": "AzureFileStorageLocation",
"folderPath": "root/folder/subfolder"
},
"columnDelimiter": ",",
"quoteChar": "\"",
"firstRowAsHeader": true,
"compressionCodec": "gzip"
}
}
}
Vlastnosti aktivity kopírování
Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem a jímkou služby Azure Files.
Azure Files jako zdroj
Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.
- Formát Avro
- Binární formát
- Formát textu s oddělovači
- Formát aplikace Excel
- Formát JSON
- Formát ORC
- Formát Parquet
- Formát XML
Soubory Azure storeSettings
v nastavení ve zdroji kopírování založeném na formátu podporují následující vlastnosti:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu v části storeSettings musí být nastavena na AzureFileStorageReadSettings. |
Ano |
Vyhledejte soubory, které chcete zkopírovat: | ||
MOŽNOST 1: Statická cesta |
Zkopírujte z dané složky nebo cesty k souboru zadané v datové sadě. Pokud chcete zkopírovat všechny soubory ze složky, dále zadejte wildcardFileName jako * . |
|
MOŽNOST 2: Předpona souboru -předpona |
Předpona názvu souboru v dané sdílené složce nakonfigurované v datové sadě pro filtrování zdrojových souborů. Jsou vybrány soubory s názvem začínajícím na fileshare_in_linked_service/this_prefix . Využívá filtr na straně služby pro službu Azure Files, který poskytuje lepší výkon než filtr se zástupnými cardy. Tato funkce není podporována při použití starší verze propojeného modelu služby. |
No |
MOŽNOST 3: Zástupný znak – zástupný znakFolderPath |
Cesta ke složce se zástupnými znaky pro filtrování zdrojových složek. Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku), použijte ^ k řídicímu znaku, pokud má skutečný název složky zástupný znak nebo tento řídicí znak uvnitř. Další příklady najdete v příkladech filtru složek a souborů. |
No |
MOŽNOST 3: Zástupný znak - wildcardFileName |
Název souboru se zástupnými znaky v dané složcePath/wildcardFolderPath pro filtrování zdrojových souborů. Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku), použijte ^ k řídicímu znaku, pokud má váš skutečný název souboru zástupný znak nebo tento řídicí znak uvnitř. Další příklady najdete v příkladech filtru složek a souborů. |
Ano |
MOŽNOST 4: seznam souborů - fileListPath |
Označuje, že chcete zkopírovat danou sadu souborů. Přejděte na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek, což je relativní cesta k cestě nakonfigurované v datové sadě. Při použití této možnosti nezadávejte v datové sadě název souboru. Další příklady najdete v příkladech seznamu souborů. |
No |
Další nastavení: | ||
rekurzivní | Určuje, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Pokud je rekurzivní nastavena na hodnotu true a jímka je úložiště založené na souborech, prázdná složka nebo podsložka se v jímce nezkopíruje ani nevytvoří. Povolené hodnoty jsou true (výchozí) a false. Tato vlastnost se nepoužije při konfiguraci fileListPath . |
No |
deleteFilesAfterCompletion | Určuje, zda se binární soubory odstraní ze zdrojového úložiště po úspěšném přesunutí do cílového úložiště. Odstranění souboru je na každém souboru, takže když aktivita kopírování selže, uvidíte, že se některé soubory už zkopírovaly do cíle a odstranily ze zdroje, zatímco ostatní zůstávají ve zdrojovém úložišti. Tato vlastnost je platná pouze ve scénáři kopírování binárních souborů. Výchozí hodnota: false. |
No |
modifiedDatetimeStart | Filtr souborů na základě atributu: Naposledy změněno. Soubory budou vybrány, pokud je jejich čas poslední změny větší nebo roven modifiedDatetimeStart a menší než modifiedDatetimeEnd . Čas se použije u časového pásma UTC ve formátu "2018-12-01T05:00:00Z". Vlastnosti můžou mít hodnotu NULL, což znamená, že u datové sady se nepoužije žádný filtr atributů souboru. Pokud modifiedDatetimeStart má hodnotu datetime, ale modifiedDatetimeEnd má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime, budou vybrány. Pokud modifiedDatetimeEnd má hodnotu datetime, ale modifiedDatetimeStart má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je menší než hodnota datetime, budou vybrány.Tato vlastnost se nepoužije při konfiguraci fileListPath . |
No |
modifiedDatetimeEnd | Platí to samé jako výše. | No |
enablePartitionDiscovery | U souborů, které jsou rozdělené na oddíly, určete, zda chcete analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce. Povolené hodnoty jsou false (výchozí) a true. |
No |
partitionRootPath | Pokud je povolené zjišťování oddílů, zadejte absolutní kořenovou cestu, abyste mohli číst dělené složky jako datové sloupce. Pokud není ve výchozím nastavení zadán, – Při použití cesty k souboru v datové sadě nebo seznamu souborů ve zdroji je kořenová cesta oddílu cesta nakonfigurovaná v datové sadě. – Pokud používáte filtr složky se zástupnými otazemi, je kořenová cesta oddílu dílčí cestou před prvním zástupným znakem. Předpokládejme například, že cestu v datové sadě nakonfigurujete jako "root/folder/year=2020/month=08/day=27": – Pokud zadáte kořenovou cestu oddílu jako "root/folder/year=2020", aktivita kopírování vygeneruje dva další sloupce month a day s hodnotou 08 a 27 kromě sloupců uvnitř souborů.– Pokud není zadaná kořenová cesta oddílu, nevygeneruje se žádný sloupec navíc. |
No |
maxConcurrentConnections | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. | No |
Příklad:
"activities":[
{
"name": "CopyFromAzureFileStorage",
"type": "Copy",
"inputs": [
{
"referenceName": "<Delimited text input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "DelimitedTextSource",
"formatSettings":{
"type": "DelimitedTextReadSettings",
"skipLineCount": 10
},
"storeSettings":{
"type": "AzureFileStorageReadSettings",
"recursive": true,
"wildcardFolderPath": "myfolder*A",
"wildcardFileName": "*.csv"
}
},
"sink": {
"type": "<sink type>"
}
}
}
]
Soubory Azure jako jímka
Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.
V nastavení v storeSettings
jímce kopírování založeném na formátu jsou podporovány následující vlastnosti služby Azure Files:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu v části storeSettings musí být nastavena na AzureFileStorageWriteSettings. |
Ano |
copyBehavior | Definuje chování kopírování, pokud je zdrojem soubory ze souborového úložiště dat. Povolené hodnoty jsou následující: - PreserveHierarchy (výchozí):: Zachová hierarchii souborů v cílové složce. Relativní cesta zdrojového souboru ke zdrojové složce je shodná s relativní cestou cílového souboru k cílové složce. - FlattenHierarchy: Všechny soubory ze zdrojové složky jsou na první úrovni cílové složky. Cílové soubory mají automaticky vygenerované názvy. - MergeFiles: Sloučí všechny soubory ze zdrojové složky do jednoho souboru. Pokud je zadaný název souboru, je zadaným názvem sloučený soubor. V opačném případě se jedná o automaticky vygenerovaný název souboru. |
No |
maxConcurrentConnections | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. | No |
Příklad:
"activities":[
{
"name": "CopyToAzureFileStorage",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Parquet output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "ParquetSink",
"storeSettings":{
"type": "AzureFileStorageWriteSettings",
"copyBehavior": "PreserveHierarchy"
}
}
}
}
]
Poznámka:
Pokud jako typ ověřování použijete spravovanou identitu přiřazenou systémem nebo spravovanou identitu přiřazenou uživatelem, můžete do jímky zkopírovat až 4 MB dat.
Příklady filtrů složek a souborů
Tato část popisuje výsledné chování cesty ke složce a názvu souboru pomocí filtrů zástupných znaků.
folderPath | fileName | rekurzivní | Struktura zdrojové složky a výsledek filtru (soubory se načítají tučně ) |
---|---|---|---|
Folder* |
(prázdné, použijte výchozí) | false (nepravda) | FolderA File1.csv File2.json Podsložka 1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
Folder* |
(prázdné, použijte výchozí) | true | FolderA File1.csv File2.json Podsložka 1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
Folder* |
*.csv |
false (nepravda) | FolderA File1.csv File2.json Podsložka 1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
Folder* |
*.csv |
true | FolderA File1.csv File2.json Podsložka 1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
Příklady seznamu souborů
Tato část popisuje výsledné chování použití cesty k seznamu souborů ve zdroji aktivity kopírování.
Za předpokladu, že máte následující strukturu zdrojové složky a chcete zkopírovat soubory tučně:
Ukázková zdrojová struktura | Obsah v FileListToCopy.txt | Konfigurace |
---|---|---|
kořen FolderA File1.csv File2.json Podsložka 1 File3.csv File4.json File5.csv Metadata FileListToCopy.txt |
File1.csv Podsložka1/File3.csv Podsložka1/File5.csv |
V datové sadě: - Cesta ke složce: root/FolderA Ve zdroji aktivity kopírování: - Cesta k seznamu souborů: root/Metadata/FileListToCopy.txt Cesta k seznamu souborů odkazuje na textový soubor ve stejném úložišti dat, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek s relativní cestou k cestě nakonfigurované v datové sadě. |
rekurzivní a copyBehavior – příklady
Tato část popisuje výsledné chování operace kopírování pro různé kombinace rekurzivních a copyBehavior hodnot.
rekurzivní | copyBehavior | Struktura zdrojových složek | Výsledný cíl |
---|---|---|---|
true | preserveHierarchy | Složka 1 Soubor 1 Soubor 2 Podsložka 1 Soubor 3 Soubor 4 Soubor 5 |
Cílová složka Folder1 se vytvoří se stejnou strukturou jako zdroj: Složka 1 Soubor 1 Soubor 2 Podsložka 1 Soubor 3 Soubor 4 Soubor5. |
true | flattenHierarchy | Složka 1 Soubor 1 Soubor 2 Podsložka 1 Soubor 3 Soubor 4 Soubor 5 |
Cílová složka1 se vytvoří s následující strukturou: Složka 1 automaticky vygenerovaný název souboru 1 automaticky vygenerovaný název souboru 2 automaticky vygenerovaný název souboru 3 automaticky vygenerovaný název souboru 4 automaticky vygenerovaný název souboru 5 |
true | mergeFiles | Složka 1 Soubor 1 Soubor 2 Podsložka 1 Soubor 3 Soubor 4 Soubor 5 |
Cílová složka1 se vytvoří s následující strukturou: Složka 1 File1 + File2 + File3 + File4 + Soubor 5 obsah jsou sloučeny do jednoho souboru s automaticky vygenerovaným názvem souboru. |
false (nepravda) | preserveHierarchy | Složka 1 Soubor 1 Soubor 2 Podsložka 1 Soubor 3 Soubor 4 Soubor 5 |
Cílová složka Folder1 se vytvoří s následující strukturou. Složka 1 Soubor 1 Soubor 2 Podsložka1 se souborem File3, File4 a File5 se nenabídne. |
false (nepravda) | flattenHierarchy | Složka 1 Soubor 1 Soubor 2 Podsložka 1 Soubor 3 Soubor 4 Soubor 5 |
Cílová složka Folder1 se vytvoří s následující strukturou. Složka 1 automaticky vygenerovaný název souboru 1 automaticky vygenerovaný název souboru 2 Podsložka1 se souborem File3, File4 a File5 se nenabídne. |
false (nepravda) | mergeFiles | Složka 1 Soubor 1 Soubor 2 Podsložka 1 Soubor 3 Soubor 4 Soubor 5 |
Cílová složka Folder1 se vytvoří s následující strukturou. Složka 1 Obsah File1 + File2 se sloučí do jednoho souboru s automaticky vygenerovaným názvem souboru. automaticky vygenerovaný název souboru 1 Podsložka1 se souborem File3, File4 a File5 se nenabídne. |
Vlastnosti aktivity vyhledávání
Podrobnosti o vlastnostech najdete v aktivitě Vyhledávání.
Vlastnosti aktivity GetMetadata
Podrobnosti o vlastnostech najdete v aktivitě GetMetadata.
Odstranění vlastností aktivity
Podrobnosti o vlastnostech najdete v aktivitě Odstranění.
Starší modely
Poznámka:
Následující modely jsou stále podporovány, protože je to kvůli zpětné kompatibilitě. Doporučujeme použít nový model uvedený v předchozích částech a uživatelské rozhraní pro vytváření obsahu se přepnulo na generování nového modelu.
Starší model datové sady
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu datové sady musí být nastavená na: FileShare | Ano |
folderPath | Cesta ke složce Podporuje se filtr se zástupnými znaky, povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku), použijte k ^ řídicímu znaku, pokud má skutečný název složky zástupný znak nebo tento řídicí znak uvnitř. Příklady: rootfolder/podsložka/, viz další příklady v příkladech filtru složek a souborů. |
Ano |
fileName | Název nebo filtr zástupných znaků pro soubory pod zadanou "folderPath". Pokud pro tuto vlastnost nezadáte hodnotu, datová sada odkazuje na všechny soubory ve složce. Pro filtr jsou povolené zástupné znaky: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku).– Příklad 1: "fileName": "*.csv" – Příklad 2: "fileName": "???20180427.txt" Slouží ^ k řídicímu znaku, pokud má váš skutečný název souboru zástupný znak nebo tento řídicí znak uvnitř.Pokud pro výstupní datovou sadu není zadaný název fileName a v jímce aktivity není zadána vlastnost preserveHierarchy , aktivita kopírování automaticky vygeneruje název souboru s následujícím vzorem: Data.[ GUID ID spuštění aktivity]. [GUID pokud FlattenHierarchy]. [formát, pokud je nakonfigurovaný]. [komprese, pokud je nakonfigurovaná]", například "Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.gz"; pokud kopírujete z tabulkového zdroje pomocí názvu tabulky místo dotazu, vzor názvů je "[název tabulky].[ formát]. [compression if configured]", například "MyTable.csv". |
No |
modifiedDatetimeStart | Filtr souborů na základě atributu: Naposledy změněno. Soubory budou vybrány, pokud je jejich čas poslední změny větší nebo roven modifiedDatetimeStart a menší než modifiedDatetimeEnd . Čas se použije u časového pásma UTC ve formátu "2018-12-01T05:00:00Z". Mějte na paměti, že celkový výkon přesunu dat bude ovlivněn povolením tohoto nastavení, když chcete filtrovat soubory z obrovského množství souborů. Vlastnosti můžou mít hodnotu NULL, což znamená, že u datové sady se nepoužije žádný filtr atributů souboru. Pokud modifiedDatetimeStart má hodnotu datetime, ale modifiedDatetimeEnd má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime, budou vybrány. Pokud modifiedDatetimeEnd má hodnotu datetime, ale modifiedDatetimeStart má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je menší než hodnota datetime, budou vybrány. |
No |
modifiedDatetimeEnd | Filtr souborů na základě atributu: Naposledy změněno. Soubory budou vybrány, pokud je jejich čas poslední změny větší nebo roven modifiedDatetimeStart a menší než modifiedDatetimeEnd . Čas se použije u časového pásma UTC ve formátu "2018-12-01T05:00:00Z". Mějte na paměti, že celkový výkon přesunu dat bude ovlivněn povolením tohoto nastavení, když chcete filtrovat soubory z obrovského množství souborů. Vlastnosti můžou mít hodnotu NULL, což znamená, že u datové sady se nepoužije žádný filtr atributů souboru. Pokud modifiedDatetimeStart má hodnotu datetime, ale modifiedDatetimeEnd má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime, budou vybrány. Pokud modifiedDatetimeEnd má hodnotu datetime, ale modifiedDatetimeStart má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je menší než hodnota datetime, budou vybrány. |
No |
format | Pokud chcete kopírovat soubory tak, jak je mezi úložišti založenými na souborech (binární kopie), přeskočte oddíl formátu v definicích vstupní i výstupní datové sady. Pokud chcete analyzovat nebo generovat soubory s určitým formátem, podporují se následující typy formátů souborů: TextFormat, JsonFormat, AvroFormat, OrcFormat, ParquetFormat. Nastavte vlastnost typu ve formátu na jednu z těchto hodnot. Další informace najdete v částech Formát textu, Formát JSON, Formát Avro, Formát orc a Parquet Format. |
Ne (pouze pro scénář binárního kopírování) |
komprese | Zadejte typ a úroveň komprese dat. Další informace naleznete v tématu Podporované formáty souborů a komprimační kodeky. Podporované typy jsou: GZip, Deflate, BZip2 a ZipDeflate. Podporované úrovně jsou: Optimální a nejrychlejší. |
No |
Tip
Chcete-li kopírovat všechny soubory ve složce, zadejte pouze folderPath .
Pokud chcete zkopírovat jeden soubor s daným názvem, zadejte folderPath s částí složky a fileName s názvem souboru.
Chcete-li zkopírovat podmnožinu souborů ve složce, zadejte folderPath s částí složky a fileName s filtrem zástupných znaků.
Poznámka:
Pokud jste pro filtr souborů používali vlastnost FileFilter, je stále podporovaná tak, jak je, zatímco se navrhuje používat novou funkci filtru přidanou do souboru fileName.
Příklad:
{
"name": "AzureFileStorageDataset",
"properties": {
"type": "FileShare",
"linkedServiceName":{
"referenceName": "<Azure File Storage linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"folderPath": "folder/subfolder/",
"fileName": "*",
"modifiedDatetimeStart": "2018-12-01T05:00:00Z",
"modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
"format": {
"type": "TextFormat",
"columnDelimiter": ",",
"rowDelimiter": "\n"
},
"compression": {
"type": "GZip",
"level": "Optimal"
}
}
}
}
Model zdroje starší verze aktivity kopírování
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu zdroje aktivity kopírování musí být nastavena na: FileSystemSource. | Ano |
rekurzivní | Určuje, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Poznámka: Pokud je rekurzivní nastavená na hodnotu true a jímka je úložiště založené na souborech, prázdná složka nebo podsložka se v jímce nezkopíruje ani nevytvoří. Povolené hodnoty jsou: true (výchozí), false |
No |
maxConcurrentConnections | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. | No |
Příklad:
"activities":[
{
"name": "CopyFromAzureFileStorage",
"type": "Copy",
"inputs": [
{
"referenceName": "<Azure File Storage input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "FileSystemSource",
"recursive": true
},
"sink": {
"type": "<sink type>"
}
}
}
]
Starší model jímky aktivity kopírování
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu jímky aktivity kopírování musí být nastavena na: FileSystemSink | Ano |
copyBehavior | Definuje chování kopírování, pokud je zdrojem soubory ze souborového úložiště dat. Povolené hodnoty jsou následující: - PreserveHierarchy (výchozí):: Zachovává hierarchii souborů v cílové složce. Relativní cesta zdrojového souboru ke zdrojové složce je shodná s relativní cestou cílového souboru k cílové složce. - FlattenHierarchy: všechny soubory ze zdrojové složky jsou na první úrovni cílové složky. Cílové soubory mají automaticky vygenerovaný název. - MergeFiles: sloučí všechny soubory ze zdrojové složky do jednoho souboru. Pokud je zadán název souboru, sloučený název souboru by byl zadaný název; jinak by se automaticky vygeneroval název souboru. |
No |
maxConcurrentConnections | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. | No |
Příklad:
"activities":[
{
"name": "CopyToAzureFileStorage",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Azure File Storage output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "FileSystemSink",
"copyBehavior": "PreserveHierarchy"
}
}
}
]
Související obsah
Seznam úložišť dat podporovaných jako zdroje a jímky aktivitou kopírování najdete v podporovaných úložištích dat.