Konfigurace datového skladu v aktivitě kopírování
Tento článek popisuje, jak pomocí aktivity kopírování v datovém kanálu kopírovat data z datového skladu a do datového skladu.
Podporovaná konfigurace
Konfigurace každé karty v aktivitě kopírování najdete v následujících částech.
OBECNÉ
Pro konfiguraci karty Obecné přejděte na Obecné.
Zdroj
Následující vlastnosti jsou podporovány pro datový sklad jako zdroj v aktivitě kopírování.
Jsou vyžadovány následující vlastnosti:
Typ úložiště dat: Vyberte pracovní prostor.
Typ úložiště dat pracovního prostoru: Ze seznamu typů úložiště dat vyberte Datový sklad .
Datový sklad: V pracovním prostoru vyberte existující datový sklad .
Použít dotaz: Vyberte tabulku, dotaz nebo uloženou proceduru.
Pokud vyberete možnost Tabulka, zvolte existující tabulku ze seznamu tabulek nebo ručně zadejte název tabulky tak , že vyberete pole Upravit .
Pokud vyberete Dotaz, pomocí vlastního editoru dotazů SQL napište dotaz SQL, který načte zdrojová data.
Pokud vyberete Uložená procedura, vyberte z rozevíracího seznamu existující uloženou proceduru nebo jako zdroj zadejte název uložené procedury výběrem pole Upravit .
V části Upřesnit můžete zadat následující pole:
Časový limit dotazu (minuty): Časový limit spuštění příkazu dotazu s výchozím nastavením 120 minut. Pokud je tato vlastnost nastavená, povolené hodnoty jsou ve formátu časového rozpětí, například 02:00:00 (120 minut).
Úroveň izolace: Zadejte chování uzamykání transakcí pro zdroj SQL.
Možnost oddílu: Zadejte možnosti dělení dat, které se používají k načtení dat z datového skladu. Můžete vybrat možnost Žádný nebo Dynamický rozsah.
Pokud vyberete Dynamický rozsah, parametr oddílu rozsahu (
?AdfDynamicRangePartitionCondition
) je potřeba při použití dotazu s povoleným paralelním povolením. Ukázkový dotaz:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition
.- Název sloupce oddílu: Zadejte název zdrojového sloupce v celočíselném nebo typu date/datetime (
int
,smallint
, ,bigint
,date
smalldatetime
,datetime
,datetime2
, nebodatetimeoffset
), který se používá při dělení rozsahu pro paralelní kopírování. Pokud není zadaný, index nebo primární klíč tabulky se automaticky zjistí a použije se jako sloupec oddílu. - Horní mez oddílu: Maximální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují.
- Dolní mez oddílu: Minimální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují.
- Název sloupce oddílu: Zadejte název zdrojového sloupce v celočíselném nebo typu date/datetime (
Další sloupce: Přidejte další datové sloupce pro ukládání relativní cesty nebo statické hodnoty zdrojových souborů. U druhého výrazu se podporuje.
Cíl
Následující vlastnosti jsou podporovány pro datový sklad jako cíl v aktivitě kopírování.
Jsou vyžadovány následující vlastnosti:
- Typ úložiště dat: Vyberte pracovní prostor.
- Typ úložiště dat pracovního prostoru: Ze seznamu typů úložiště dat vyberte Datový sklad .
- Datový sklad: V pracovním prostoru vyberte existující datový sklad .
- Tabulka: Vyberte existující tabulku ze seznamu tabulek nebo zadejte název tabulky jako cíl.
V části Upřesnit můžete zadat následující pole:
Nastavení příkazu kopírování: Zadejte vlastnosti příkazu kopírování.
Možnosti tabulky: Určete, zda se má cílová tabulka vytvořit automaticky, pokud neexistuje na základě zdrojového schématu. Můžete vybrat možnost Žádné nebo Automaticky vytvořit tabulku.
Skript předběžného kopírování: Zadejte dotaz SQL, který se má spustit před zápisem dat do datového skladu v každém spuštění. Tato vlastnost slouží k vyčištění předem načtených dat.
Časový limit dávky zápisu: Doba čekání na dokončení operace vložení dávky před vypršením časového limitu. Povolené hodnoty jsou ve formátu časového rozsahu. Výchozí hodnota je 00:30:00 (30 minut).
Zakázat analýzu metrik výkonu: Služba shromažďuje metriky pro optimalizaci výkonu kopírování a doporučení. Pokud máte obavy o toto chování, vypněte tuto funkci.
Přímá kopie
Příkaz COPY představuje primární způsob, jak ingestovat data do tabulek Warehouse. Příkaz COPY datového skladu přímo podporuje Azure Blob Storage a Azure Data Lake Storage Gen2 jako zdrojová úložiště dat. Pokud zdrojová data splňují kritéria popsaná v této části, použijte příkaz COPY, který zkopíruje přímo ze zdrojového úložiště dat do datového skladu.
Zdrojová data a formát obsahují následující typy a metody ověřování:
Podporovaný typ zdrojového úložiště dat Podporovaný formát Podporovaný typ ověřování zdroje Azure Blob Storage Text s oddělovači
ParquetAnonymní ověření
Ověřování pomocí klíče účtu
Ověřování pomocí sdíleného přístupového podpisuAzure Data Lake Storage Gen2 Text s oddělovači
ParquetOvěřování pomocí klíče účtu
Ověřování pomocí sdíleného přístupového podpisuMůžete nastavit následující nastavení formátu:
- Pro Parquet: Typ komprese může být None, snappy nebo gzip.
- Text s oddělovači:
- Oddělovač řádků: Při kopírování textu s oddělovači do datového skladu pomocí přímého příkazu COPY zadejte explicitně oddělovač řádků (\r; \n; nebo \r\n). Pouze v případě, že oddělovač řádků zdrojového souboru je \r\n, funguje výchozí hodnota (\r, \n nebo \r\n). Jinak povolte přípravu pro váš scénář.
- Hodnota Null je ponechána jako výchozí nebo je nastavena na prázdný řetězec ("").
- Kódování je ponecháno jako výchozí nebo nastaveno na UTF-8 nebo UTF-16.
- Vynechání počtu řádků je ponecháno jako výchozí nebo je nastaveno na 0.
- Typ komprese může být None nebo gzip.
Pokud je zdrojem složka, musíte zaškrtnout políčko Rekurzivně .
Počáteční čas (UTC) a Koncový čas (UTC) ve filtru podle poslední změny, předpony, povolení zjišťování oddílů a dalších sloupců nejsou zadané.
Informace o příjmu dat do datového skladu pomocí příkazu COPY najdete v tomto článku.
Pokud zdrojové úložiště dat a formát není původně podporováno příkazem COPY, použijte místo toho fázovanou kopii pomocí funkce PŘÍKAZU COPY. Automaticky převede data do formátu kompatibilního s příkazem COPY a potom zavolá příkaz COPY, který načte data do datového skladu.
Fázovaná kopie
Pokud zdrojová data nejsou nativně kompatibilní s příkazem COPY, povolte kopírování dat prostřednictvím dočasného přípravného úložiště. V tomto případě služba automaticky převede data tak, aby splňovala požadavky na formát dat příkazu COPY. Potom vyvolá příkaz COPY, který načte data do datového skladu. Nakonec vyčistí dočasná data z úložiště.
Pokud chcete použít fázovanou kopii, přejděte na kartu Nastavení a vyberte Povolit přípravu. Můžete zvolit pracovní prostor , který použije automaticky vytvořené přípravné úložiště v rámci prostředků infrastruktury. Pro externí úložiště Azure Blob Storage a Azure Data Lake Storage Gen2 se podporují jako externí přípravné úložiště. Nejprve musíte vytvořit připojení Azure Blob Storage nebo Azure Data Lake Storage Gen2 a pak v rozevíracím seznamu vybrat připojení, abyste mohli použít přípravné úložiště.
Upozorňujeme, že potřebujete zajistit, aby rozsah IP adres datového skladu byl z přípravného úložiště povolený správně.
mapování.
Pokud v konfiguraci karty Mapování nepoužijete datový sklad s automatickým vytvořením tabulky jako cíle, přejděte na Mapování.
Pokud jako cíl použijete datový sklad s automatickým vytvořením tabulky s výjimkou konfigurace v mapování, můžete typ cílových sloupců upravit. Po výběru schémat importu můžete zadat typ sloupce v cíli.
Například typ sloupce ID ve zdroji je int a můžete ho změnit na typ float při mapování na cílový sloupec.
Nastavení
Pro konfiguraci karty Nastavení přejděte na Nastavení.
Souhrn tabulky
Následující tabulky obsahují další informace o aktivitě kopírování v datovém skladu.
Informace o zdroji
Název | Popis | Hodnota | Požaduje se | Vlastnost skriptu JSON |
---|---|---|---|---|
Typ úložiště dat | Váš typ úložiště dat. | Pracovní prostor | Ano | / |
Typ úložiště dat pracovního prostoru | Oddíl pro výběr typu úložiště dat pracovního prostoru. | Datový sklad | Ano | type |
Datový sklad | Datový sklad, který chcete použít. | <váš datový sklad> | Ano | endpoint artifactId |
Použití dotazu | Způsob čtení dat z datového skladu | •Tabulky •Dotaz • Uložená procedura |
No | (v části typeProperties ->source )• typeProperties: schema table • sqlReaderQuery • sqlReaderStoredProcedureName |
Časový limit dotazu (minuty) | Časový limit spuštění příkazu dotazu s výchozím nastavením 120 minut Pokud je tato vlastnost nastavená, povolené hodnoty jsou ve formátu časového rozpětí, například 02:00:00 (120 minut). | timespan | No | queryTimeout |
Úroveň izolace | Chování zamykání transakce pro zdroj. | •Žádný •Snímek |
No | isolationLevel |
Možnost oddílu | Možnosti dělení dat používané k načtení dat z datového skladu. | •Žádný • Dynamický rozsah |
No | partitionOption |
Název sloupce oddílu | Název zdrojového sloupce v celočíselném čísle nebo typu date/datetime (int , smallint , bigint , smalldatetime date , datetime , , datetime2 nebo datetimeoffset ), který se používá při dělení rozsahu pro paralelní kopírování. Pokud není zadaný, index nebo primární klíč tabulky se automaticky zjistí a použije se jako sloupec oddílu. |
<název sloupce oddílu> | No | partitionColumnName |
Horní mez oddílu | Maximální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují. | <horní mez oddílu> | No | partitionUpperBound |
Dolní mez oddílu | Minimální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují. | <dolní mez oddílu> | No | partitionLowerBound |
Další sloupce | Přidejte další datové sloupce pro ukládání relativní cesty ke zdrojovým souborům nebo statické hodnotě. | • Jméno •Hodnota |
No | additionalColumns: •Jméno •hodnota |
Informace o cíli
Název | Popis | Hodnota | Požaduje se | Vlastnost skriptu JSON |
---|---|---|---|---|
Typ úložiště dat | Váš typ úložiště dat. | Pracovní prostor | Ano | / |
Typ úložiště dat pracovního prostoru | Oddíl pro výběr typu úložiště dat pracovního prostoru. | Datový sklad | Ano | type |
Datový sklad | Datový sklad, který chcete použít. | <váš datový sklad> | Ano | endpoint artifactId |
Tabulka | Cílová tabulka pro zápis dat. | <název cílové tabulky> | Ano | schéma table |
Kopírování nastavení příkazů | Nastavení vlastnosti příkazu kopírovat. Obsahuje výchozí nastavení hodnoty. | Výchozí hodnota: •Sloupec •Hodnota |
No | copyCommandSettings: defaultValues: • columnName • defaultValue |
Možnost Tabulka | Zda se má cílová tabulka vytvořit automaticky, pokud neexistuje na základě zdrojového schématu. | •Žádný • Automaticky vytvořit tabulku |
No | tableOption: • automatické vytvoření |
Skript předběžného kopírování | Dotaz SQL, který se má spustit před zápisem dat do datového skladu v každém spuštění. Tato vlastnost slouží k vyčištění předem načtených dat. | <skript předběžného kopírování> | No | preCopyScript |
Časový limit zápisu dávky | Doba čekání, než se operace dávkového vložení dokončí, než vyprší časový limit. Povolené hodnoty jsou ve formátu časového rozsahu. Výchozí hodnota je 00:30:00 (30 minut). | timespan | No | writeBatchTimeout |
Zakázání analýz metrik výkonu | Služba shromažďuje metriky pro optimalizaci výkonu kopírování a doporučení, která představují další hlavní přístup k databázi. | výběr nebo zrušení výběru | No | disableMetricsCollection: true nebo false |