Konfigurace datového skladu v aktivitě kopírování

Článek
05/09/2024

Tento článek popisuje, jak pomocí aktivity kopírování v datovém kanálu kopírovat data z datového skladu a do datového skladu.

Podporovaná konfigurace

Konfigurace každé karty v aktivitě kopírování najdete v následujících částech.

Obecné
Source
Cíl
Mapující
Možnosti

OBECNÉ

Pro konfiguraci karty Obecné přejděte na Obecné.

Zdroj

Následující vlastnosti jsou podporovány pro datový sklad jako zdroj v aktivitě kopírování.

Snímek obrazovky zobrazující kartu zdroje a seznam vlastností

Jsou vyžadovány následující vlastnosti:

Typ úložiště dat: Vyberte pracovní prostor.
Typ úložiště dat pracovního prostoru: Ze seznamu typů úložiště dat vyberte Datový sklad .
Datový sklad: V pracovním prostoru vyberte existující datový sklad .
Použít dotaz: Vyberte tabulku, dotaz nebo uloženou proceduru.
- Pokud vyberete možnost Tabulka, zvolte existující tabulku ze seznamu tabulek nebo ručně zadejte název tabulky tak , že vyberete pole Upravit .
- Pokud vyberete Dotaz, pomocí vlastního editoru dotazů SQL napište dotaz SQL, který načte zdrojová data.
- Pokud vyberete Uložená procedura, vyberte z rozevíracího seznamu existující uloženou proceduru nebo jako zdroj zadejte název uložené procedury výběrem pole Upravit .

V části Upřesnit můžete zadat následující pole:

Časový limit dotazu (minuty): Časový limit spuštění příkazu dotazu s výchozím nastavením 120 minut. Pokud je tato vlastnost nastavená, povolené hodnoty jsou ve formátu časového rozpětí, například 02:00:00 (120 minut).
Úroveň izolace: Zadejte chování uzamykání transakcí pro zdroj SQL.
Možnost oddílu: Zadejte možnosti dělení dat, které se používají k načtení dat z datového skladu. Můžete vybrat možnost Žádný nebo Dynamický rozsah.

Pokud vyberete Dynamický rozsah, parametr oddílu rozsahu (?AdfDynamicRangePartitionCondition) je potřeba při použití dotazu s povoleným paralelním povolením. Ukázkový dotaz: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.
- Název sloupce oddílu: Zadejte název zdrojového sloupce v celočíselném nebo typu date/datetime (int, smallint, , bigint, datesmalldatetime, datetime, datetime2, nebo datetimeoffset), který se používá při dělení rozsahu pro paralelní kopírování. Pokud není zadaný, index nebo primární klíč tabulky se automaticky zjistí a použije se jako sloupec oddílu.
- Horní mez oddílu: Maximální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují.
- Dolní mez oddílu: Minimální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují.
Další sloupce: Přidejte další datové sloupce pro ukládání relativní cesty nebo statické hodnoty zdrojových souborů. U druhého výrazu se podporuje.

Cíl

Následující vlastnosti jsou podporovány pro datový sklad jako cíl v aktivitě kopírování.

Snímek obrazovky zobrazující cílovou kartu a seznam vlastností

Jsou vyžadovány následující vlastnosti:

Typ úložiště dat: Vyberte pracovní prostor.
Typ úložiště dat pracovního prostoru: Ze seznamu typů úložiště dat vyberte Datový sklad .
Datový sklad: V pracovním prostoru vyberte existující datový sklad .
Tabulka: Vyberte existující tabulku ze seznamu tabulek nebo zadejte název tabulky jako cíl.

V části Upřesnit můžete zadat následující pole:

Nastavení příkazu kopírování: Zadejte vlastnosti příkazu kopírování.
Možnosti tabulky: Určete, zda se má cílová tabulka vytvořit automaticky, pokud neexistuje na základě zdrojového schématu. Můžete vybrat možnost Žádné nebo Automaticky vytvořit tabulku.
Skript předběžného kopírování: Zadejte dotaz SQL, který se má spustit před zápisem dat do datového skladu v každém spuštění. Tato vlastnost slouží k vyčištění předem načtených dat.
Časový limit dávky zápisu: Doba čekání na dokončení operace vložení dávky před vypršením časového limitu. Povolené hodnoty jsou ve formátu časového rozsahu. Výchozí hodnota je 00:30:00 (30 minut).
Zakázat analýzu metrik výkonu: Služba shromažďuje metriky pro optimalizaci výkonu kopírování a doporučení. Pokud máte obavy o toto chování, vypněte tuto funkci.

Přímá kopie

Příkaz COPY představuje primární způsob, jak ingestovat data do tabulek Warehouse. Příkaz COPY datového skladu přímo podporuje Azure Blob Storage a Azure Data Lake Storage Gen2 jako zdrojová úložiště dat. Pokud zdrojová data splňují kritéria popsaná v této části, použijte příkaz COPY, který zkopíruje přímo ze zdrojového úložiště dat do datového skladu.

Zdrojová data a formát obsahují následující typy a metody ověřování:

Podporovaný typ zdrojového úložiště dat	Podporovaný formát	Podporovaný typ ověřování zdroje
Azure Blob Storage	Text s oddělovači Parquet	Anonymní ověření Ověřování pomocí klíče účtu Ověřování pomocí sdíleného přístupového podpisu
Azure Data Lake Storage Gen2	Text s oddělovači Parquet	Ověřování pomocí klíče účtu Ověřování pomocí sdíleného přístupového podpisu

Můžete nastavit následující nastavení formátu:
1. Pro Parquet: Typ komprese může být None, snappy nebo gzip.
2. Text s oddělovači:
  1. Oddělovač řádků: Při kopírování textu s oddělovači do datového skladu pomocí přímého příkazu COPY zadejte explicitně oddělovač řádků (\r; \n; nebo \r\n). Pouze v případě, že oddělovač řádků zdrojového souboru je \r\n, funguje výchozí hodnota (\r, \n nebo \r\n). Jinak povolte přípravu pro váš scénář.
  2. Hodnota Null je ponechána jako výchozí nebo je nastavena na prázdný řetězec ("").
  3. Kódování je ponecháno jako výchozí nebo nastaveno na UTF-8 nebo UTF-16.
  4. Vynechání počtu řádků je ponecháno jako výchozí nebo je nastaveno na 0.
  5. Typ komprese může být None nebo gzip.
Pokud je zdrojem složka, musíte zaškrtnout políčko Rekurzivně .
Počáteční čas (UTC) a Koncový čas (UTC) ve filtru podle poslední změny, předpony, povolení zjišťování oddílů a dalších sloupců nejsou zadané.

Informace o příjmu dat do datového skladu pomocí příkazu COPY najdete v tomto článku.

Pokud zdrojové úložiště dat a formát není původně podporováno příkazem COPY, použijte místo toho fázovanou kopii pomocí funkce PŘÍKAZU COPY. Automaticky převede data do formátu kompatibilního s příkazem COPY a potom zavolá příkaz COPY, který načte data do datového skladu.

Fázovaná kopie

Pokud zdrojová data nejsou nativně kompatibilní s příkazem COPY, povolte kopírování dat prostřednictvím dočasného přípravného úložiště. V tomto případě služba automaticky převede data tak, aby splňovala požadavky na formát dat příkazu COPY. Potom vyvolá příkaz COPY, který načte data do datového skladu. Nakonec vyčistí dočasná data z úložiště.

Pokud chcete použít fázovanou kopii, přejděte na kartu Nastavení a vyberte Povolit přípravu. Můžete zvolit pracovní prostor , který použije automaticky vytvořené přípravné úložiště v rámci prostředků infrastruktury. Pro externí úložiště Azure Blob Storage a Azure Data Lake Storage Gen2 se podporují jako externí přípravné úložiště. Nejprve musíte vytvořit připojení Azure Blob Storage nebo Azure Data Lake Storage Gen2 a pak v rozevíracím seznamu vybrat připojení, abyste mohli použít přípravné úložiště.

Upozorňujeme, že potřebujete zajistit, aby rozsah IP adres datového skladu byl z přípravného úložiště povolený správně.

mapování.

Pokud v konfiguraci karty Mapování nepoužijete datový sklad s automatickým vytvořením tabulky jako cíle, přejděte na Mapování.

Pokud jako cíl použijete datový sklad s automatickým vytvořením tabulky s výjimkou konfigurace v mapování, můžete typ cílových sloupců upravit. Po výběru schémat importu můžete zadat typ sloupce v cíli.

Například typ sloupce ID ve zdroji je int a můžete ho změnit na typ float při mapování na cílový sloupec.

Snímek obrazovky s mapováním typu cílového sloupce

Nastavení

Pro konfiguraci karty Nastavení přejděte na Nastavení.

Souhrn tabulky

Následující tabulky obsahují další informace o aktivitě kopírování v datovém skladu.

Informace o zdroji

Název	Popis	Hodnota	Požaduje se	Vlastnost skriptu JSON
Typ úložiště dat	Váš typ úložiště dat.	Pracovní prostor	Ano	/
Typ úložiště dat pracovního prostoru	Oddíl pro výběr typu úložiště dat pracovního prostoru.	Datový sklad	Ano	type
Datový sklad	Datový sklad, který chcete použít.	<váš datový sklad>	Ano	endpoint artifactId
Použití dotazu	Způsob čtení dat z datového skladu	•Tabulky •Dotaz • Uložená procedura	No	(v části `typeProperties` ->`source`) • typeProperties: schema table • sqlReaderQuery • sqlReaderStoredProcedureName
Časový limit dotazu (minuty)	Časový limit spuštění příkazu dotazu s výchozím nastavením 120 minut Pokud je tato vlastnost nastavená, povolené hodnoty jsou ve formátu časového rozpětí, například 02:00:00 (120 minut).	timespan	No	queryTimeout
Úroveň izolace	Chování zamykání transakce pro zdroj.	•Žádný •Snímek	No	isolationLevel
Možnost oddílu	Možnosti dělení dat používané k načtení dat z datového skladu.	•Žádný • Dynamický rozsah	No	partitionOption
Název sloupce oddílu	Název zdrojového sloupce v celočíselném čísle nebo typu date/datetime (`int`, `smallint`, `bigint`, `smalldatetimedate`, `datetime`, , `datetime2`nebo `datetimeoffset`), který se používá při dělení rozsahu pro paralelní kopírování. Pokud není zadaný, index nebo primární klíč tabulky se automaticky zjistí a použije se jako sloupec oddílu.	<název sloupce oddílu>	No	partitionColumnName
Horní mez oddílu	Maximální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují.	<horní mez oddílu>	No	partitionUpperBound
Dolní mez oddílu	Minimální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují.	<dolní mez oddílu>	No	partitionLowerBound
Další sloupce	Přidejte další datové sloupce pro ukládání relativní cesty ke zdrojovým souborům nebo statické hodnotě.	• Jméno •Hodnota	No	additionalColumns: •Jméno •hodnota

Informace o cíli

Název	Popis	Hodnota	Požaduje se	Vlastnost skriptu JSON
Typ úložiště dat	Váš typ úložiště dat.	Pracovní prostor	Ano	/
Typ úložiště dat pracovního prostoru	Oddíl pro výběr typu úložiště dat pracovního prostoru.	Datový sklad	Ano	type
Datový sklad	Datový sklad, který chcete použít.	<váš datový sklad>	Ano	endpoint artifactId
Tabulka	Cílová tabulka pro zápis dat.	<název cílové tabulky>	Ano	schéma table
Kopírování nastavení příkazů	Nastavení vlastnosti příkazu kopírovat. Obsahuje výchozí nastavení hodnoty.	Výchozí hodnota: •Sloupec •Hodnota	No	copyCommandSettings: defaultValues: • columnName • defaultValue
Možnost Tabulka	Zda se má cílová tabulka vytvořit automaticky, pokud neexistuje na základě zdrojového schématu.	•Žádný • Automaticky vytvořit tabulku	No	tableOption: • automatické vytvoření
Skript předběžného kopírování	Dotaz SQL, který se má spustit před zápisem dat do datového skladu v každém spuštění. Tato vlastnost slouží k vyčištění předem načtených dat.	<skript předběžného kopírování>	No	preCopyScript
Časový limit zápisu dávky	Doba čekání, než se operace dávkového vložení dokončí, než vyprší časový limit. Povolené hodnoty jsou ve formátu časového rozsahu. Výchozí hodnota je 00:30:00 (30 minut).	timespan	No	writeBatchTimeout
Zakázání analýz metrik výkonu	Služba shromažďuje metriky pro optimalizaci výkonu kopírování a doporučení, která představují další hlavní přístup k databázi.	výběr nebo zrušení výběru	No	disableMetricsCollection: true nebo false

Přehled konektoru datového skladu

Sdílet prostřednictvím

Konfigurace datového skladu v aktivitě kopírování

Podporovaná konfigurace

OBECNÉ

Zdroj

Cíl

Přímá kopie

Fázovaná kopie

mapování.

Nastavení

Souhrn tabulky

Informace o zdroji

Informace o cíli

Váš názor

Další materiály

Sdílet prostřednictvím

Konfigurace datového skladu v aktivitě kopírování

Podporovaná konfigurace

OBECNÉ

Zdroj

Cíl

Přímá kopie

Fázovaná kopie

mapování.

Nastavení

Souhrn tabulky

Informace o zdroji

Informace o cíli

Související obsah

Váš názor

Další materiály