Sdílet prostřednictvím


Konfigurace datového skladu v aktivitě kopírování

Tento článek popisuje, jak pomocí aktivity kopírování v datovém kanálu kopírovat data z datového skladu a do datového skladu.

Podporovaná konfigurace

Konfigurace každé karty v aktivitě kopírování najdete v následujících částech.

OBECNÉ

Pro konfiguraci karty Obecné přejděte na Obecné.

Zdroj

Následující vlastnosti jsou podporovány pro datový sklad jako zdroj v aktivitě kopírování.

Snímek obrazovky zobrazující kartu zdroje a seznam vlastností

Jsou vyžadovány následující vlastnosti:

  • Typ úložiště dat: Vyberte pracovní prostor.

  • Typ úložiště dat pracovního prostoru: Ze seznamu typů úložiště dat vyberte Datový sklad .

  • Datový sklad: V pracovním prostoru vyberte existující datový sklad .

  • Použít dotaz: Vyberte tabulku, dotaz nebo uloženou proceduru.

    • Pokud vyberete možnost Tabulka, zvolte existující tabulku ze seznamu tabulek nebo ručně zadejte název tabulky tak , že vyberete pole Upravit .

      Snímek obrazovky znázorňující použití dotazu na tabulku

    • Pokud vyberete Dotaz, pomocí vlastního editoru dotazů SQL napište dotaz SQL, který načte zdrojová data.

      Snímek obrazovky znázorňující použití dotazu

    • Pokud vyberete Uložená procedura, vyberte z rozevíracího seznamu existující uloženou proceduru nebo jako zdroj zadejte název uložené procedury výběrem pole Upravit .

      Snímek obrazovky znázorňující použití dotazu uložené procedury

V části Upřesnit můžete zadat následující pole:

  • Časový limit dotazu (minuty): Časový limit spuštění příkazu dotazu s výchozím nastavením 120 minut. Pokud je tato vlastnost nastavená, povolené hodnoty jsou ve formátu časového rozpětí, například 02:00:00 (120 minut).

  • Úroveň izolace: Zadejte chování uzamykání transakcí pro zdroj SQL.

  • Možnost oddílu: Zadejte možnosti dělení dat, které se používají k načtení dat z datového skladu. Můžete vybrat možnost Žádný nebo Dynamický rozsah.

    Pokud vyberete Dynamický rozsah, parametr oddílu rozsahu (?AdfDynamicRangePartitionCondition) je potřeba při použití dotazu s povoleným paralelním povolením. Ukázkový dotaz: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.

    Snímek obrazovky znázorňující dynamický rozsah

    • Název sloupce oddílu: Zadejte název zdrojového sloupce v celočíselném nebo typu date/datetime (int, smallint, , bigint, datesmalldatetime, datetime, datetime2, nebo datetimeoffset), který se používá při dělení rozsahu pro paralelní kopírování. Pokud není zadaný, index nebo primární klíč tabulky se automaticky zjistí a použije se jako sloupec oddílu.
    • Horní mez oddílu: Maximální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují.
    • Dolní mez oddílu: Minimální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují.
  • Další sloupce: Přidejte další datové sloupce pro ukládání relativní cesty nebo statické hodnoty zdrojových souborů. U druhého výrazu se podporuje.

    Snímek obrazovky zobrazující další sloupce

Cíl

Následující vlastnosti jsou podporovány pro datový sklad jako cíl v aktivitě kopírování.

Snímek obrazovky zobrazující cílovou kartu a seznam vlastností

Jsou vyžadovány následující vlastnosti:

  • Typ úložiště dat: Vyberte pracovní prostor.
  • Typ úložiště dat pracovního prostoru: Ze seznamu typů úložiště dat vyberte Datový sklad .
  • Datový sklad: V pracovním prostoru vyberte existující datový sklad .
  • Tabulka: Vyberte existující tabulku ze seznamu tabulek nebo zadejte název tabulky jako cíl.

V části Upřesnit můžete zadat následující pole:

  • Nastavení příkazu kopírování: Zadejte vlastnosti příkazu kopírování.

    Snímek obrazovky s výchozími hodnotami nastavení příkazu kopírování

  • Možnosti tabulky: Určete, zda se má cílová tabulka vytvořit automaticky, pokud neexistuje na základě zdrojového schématu. Můžete vybrat možnost Žádné nebo Automaticky vytvořit tabulku.

  • Skript předběžného kopírování: Zadejte dotaz SQL, který se má spustit před zápisem dat do datového skladu v každém spuštění. Tato vlastnost slouží k vyčištění předem načtených dat.

  • Časový limit dávky zápisu: Doba čekání na dokončení operace vložení dávky před vypršením časového limitu. Povolené hodnoty jsou ve formátu časového rozsahu. Výchozí hodnota je 00:30:00 (30 minut).

  • Zakázat analýzu metrik výkonu: Služba shromažďuje metriky pro optimalizaci výkonu kopírování a doporučení. Pokud máte obavy o toto chování, vypněte tuto funkci.

Přímá kopie

Příkaz COPY představuje primární způsob, jak ingestovat data do tabulek Warehouse. Příkaz COPY datového skladu přímo podporuje Azure Blob Storage a Azure Data Lake Storage Gen2 jako zdrojová úložiště dat. Pokud zdrojová data splňují kritéria popsaná v této části, použijte příkaz COPY, který zkopíruje přímo ze zdrojového úložiště dat do datového skladu.

  1. Zdrojová data a formát obsahují následující typy a metody ověřování:

    Podporovaný typ zdrojového úložiště dat Podporovaný formát Podporovaný typ ověřování zdroje
    Azure Blob Storage Text s oddělovači
    Parquet
    Anonymní ověření
    Ověřování pomocí klíče účtu
    Ověřování pomocí sdíleného přístupového podpisu
    Azure Data Lake Storage Gen2 Text s oddělovači
    Parquet
    Ověřování pomocí klíče účtu
    Ověřování pomocí sdíleného přístupového podpisu
  2. Můžete nastavit následující nastavení formátu:

    1. Pro Parquet: Typ komprese může být None, snappy nebo gzip.
    2. Text s oddělovači:
      1. Oddělovač řádků: Při kopírování textu s oddělovači do datového skladu pomocí přímého příkazu COPY zadejte explicitně oddělovač řádků (\r; \n; nebo \r\n). Pouze v případě, že oddělovač řádků zdrojového souboru je \r\n, funguje výchozí hodnota (\r, \n nebo \r\n). Jinak povolte přípravu pro váš scénář.
      2. Hodnota Null je ponechána jako výchozí nebo je nastavena na prázdný řetězec ("").
      3. Kódování je ponecháno jako výchozí nebo nastaveno na UTF-8 nebo UTF-16.
      4. Vynechání počtu řádků je ponecháno jako výchozí nebo je nastaveno na 0.
      5. Typ komprese může být None nebo gzip.
  3. Pokud je zdrojem složka, musíte zaškrtnout políčko Rekurzivně .

  4. Počáteční čas (UTC) a Koncový čas (UTC) ve filtru podle poslední změny, předpony, povolení zjišťování oddílů a dalších sloupců nejsou zadané.

Informace o příjmu dat do datového skladu pomocí příkazu COPY najdete v tomto článku.

Pokud zdrojové úložiště dat a formát není původně podporováno příkazem COPY, použijte místo toho fázovanou kopii pomocí funkce PŘÍKAZU COPY. Automaticky převede data do formátu kompatibilního s příkazem COPY a potom zavolá příkaz COPY, který načte data do datového skladu.

Fázovaná kopie

Pokud zdrojová data nejsou nativně kompatibilní s příkazem COPY, povolte kopírování dat prostřednictvím dočasného přípravného úložiště. V tomto případě služba automaticky převede data tak, aby splňovala požadavky na formát dat příkazu COPY. Potom vyvolá příkaz COPY, který načte data do datového skladu. Nakonec vyčistí dočasná data z úložiště.

Pokud chcete použít fázovanou kopii, přejděte na kartu Nastavení a vyberte Povolit přípravu. Můžete zvolit pracovní prostor , který použije automaticky vytvořené přípravné úložiště v rámci prostředků infrastruktury. Pro externí úložiště Azure Blob Storage a Azure Data Lake Storage Gen2 se podporují jako externí přípravné úložiště. Nejprve musíte vytvořit připojení Azure Blob Storage nebo Azure Data Lake Storage Gen2 a pak v rozevíracím seznamu vybrat připojení, abyste mohli použít přípravné úložiště.

Upozorňujeme, že potřebujete zajistit, aby rozsah IP adres datového skladu byl z přípravného úložiště povolený správně.

mapování.

Pokud v konfiguraci karty Mapování nepoužijete datový sklad s automatickým vytvořením tabulky jako cíle, přejděte na Mapování.

Pokud jako cíl použijete datový sklad s automatickým vytvořením tabulky s výjimkou konfigurace v mapování, můžete typ cílových sloupců upravit. Po výběru schémat importu můžete zadat typ sloupce v cíli.

Například typ sloupce ID ve zdroji je int a můžete ho změnit na typ float při mapování na cílový sloupec.

Snímek obrazovky s mapováním typu cílového sloupce

Nastavení

Pro konfiguraci karty Nastavení přejděte na Nastavení.

Souhrn tabulky

Následující tabulky obsahují další informace o aktivitě kopírování v datovém skladu.

Informace o zdroji

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Typ úložiště dat Váš typ úložiště dat. Pracovní prostor Ano /
Typ úložiště dat pracovního prostoru Oddíl pro výběr typu úložiště dat pracovního prostoru. Datový sklad Ano type
Datový sklad Datový sklad, který chcete použít. <váš datový sklad> Ano endpoint
artifactId
Použití dotazu Způsob čtení dat z datového skladu •Tabulky
•Dotaz
• Uložená procedura
No (v části typeProperties ->source)
• typeProperties:
 schema
 table
• sqlReaderQuery
• sqlReaderStoredProcedureName
Časový limit dotazu (minuty) Časový limit spuštění příkazu dotazu s výchozím nastavením 120 minut Pokud je tato vlastnost nastavená, povolené hodnoty jsou ve formátu časového rozpětí, například 02:00:00 (120 minut). timespan No queryTimeout
Úroveň izolace Chování zamykání transakce pro zdroj. •Žádný
•Snímek
No isolationLevel
Možnost oddílu Možnosti dělení dat používané k načtení dat z datového skladu. •Žádný
• Dynamický rozsah
No partitionOption
Název sloupce oddílu Název zdrojového sloupce v celočíselném čísle nebo typu date/datetime (int, smallint, bigint, smalldatetimedate, datetime, , datetime2nebo datetimeoffset), který se používá při dělení rozsahu pro paralelní kopírování. Pokud není zadaný, index nebo primární klíč tabulky se automaticky zjistí a použije se jako sloupec oddílu. <název sloupce oddílu> No partitionColumnName
Horní mez oddílu Maximální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují. <horní mez oddílu> No partitionUpperBound
Dolní mez oddílu Minimální hodnota sloupce oddílu pro rozdělení rozsahu oddílů. Tato hodnota se používá k rozhodování o kroku oddílu, nikoli k filtrování řádků v tabulce. Všechny řádky v tabulce nebo výsledku dotazu se rozdělí a zkopírují. <dolní mez oddílu> No partitionLowerBound
Další sloupce Přidejte další datové sloupce pro ukládání relativní cesty ke zdrojovým souborům nebo statické hodnotě. • Jméno
•Hodnota
No additionalColumns:
•Jméno
•hodnota

Informace o cíli

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Typ úložiště dat Váš typ úložiště dat. Pracovní prostor Ano /
Typ úložiště dat pracovního prostoru Oddíl pro výběr typu úložiště dat pracovního prostoru. Datový sklad Ano type
Datový sklad Datový sklad, který chcete použít. <váš datový sklad> Ano endpoint
artifactId
Tabulka Cílová tabulka pro zápis dat. <název cílové tabulky> Ano schéma
table
Kopírování nastavení příkazů Nastavení vlastnosti příkazu kopírovat. Obsahuje výchozí nastavení hodnoty. Výchozí hodnota:
•Sloupec
•Hodnota
No copyCommandSettings:
defaultValues:
• columnName
• defaultValue
Možnost Tabulka Zda se má cílová tabulka vytvořit automaticky, pokud neexistuje na základě zdrojového schématu. •Žádný
• Automaticky vytvořit tabulku
No tableOption:

• automatické vytvoření
Skript předběžného kopírování Dotaz SQL, který se má spustit před zápisem dat do datového skladu v každém spuštění. Tato vlastnost slouží k vyčištění předem načtených dat. <skript předběžného kopírování> No preCopyScript
Časový limit zápisu dávky Doba čekání, než se operace dávkového vložení dokončí, než vyprší časový limit. Povolené hodnoty jsou ve formátu časového rozsahu. Výchozí hodnota je 00:30:00 (30 minut). timespan No writeBatchTimeout
Zakázání analýz metrik výkonu Služba shromažďuje metriky pro optimalizaci výkonu kopírování a doporučení, která představují další hlavní přístup k databázi. výběr nebo zrušení výběru No disableMetricsCollection:
true nebo false