Sdílet prostřednictvím


Konfigurace Snowflake v aktivitě kopírování

Tento článek popisuje, jak pomocí aktivity kopírování v datovém kanálu kopírovat data z a do Snowflake.

Podporovaná konfigurace

Konfigurace každé karty v aktivitě kopírování najdete v následujících částech.

OBECNÉ

Informace o konfiguraci karty Obecné nastavení najdete v doprovodných materiálech k obecným nastavením.

Zdroj

Následující vlastnosti jsou podporovány pro Snowflake na kartě Zdroj aktivity kopírování.

Snímek obrazovky zobrazující kartu zdroje a seznam vlastností

Jsou vyžadovány následující vlastnosti:

  • Typ úložiště dat: Vyberte externí.
  • Připojení: Ze seznamu připojení vyberte připojení Snowflake. Pokud připojení neexistuje, vytvořte nové připojení Snowflake výběrem možnosti Nový.
  • Databáze: Výchozí databáze, která se má použít po připojení. Měla by to být existující databáze, pro kterou má zadaná role oprávnění.
  • Použít dotaz: Jako dotaz pro použití můžete zvolit tabulku nebo dotaz . Následující seznam popisuje konfiguraci jednotlivých nastavení.
    • Tabulka: V rozevíracím seznamu vyberte tabulku v databázi. Nebo zaškrtněte políčko Upravit a zadejte název tabulky ručně.
    • Dotaz: Zadejte dotaz SQL pro čtení dat ze Snowflake. Pokud názvy schématu, tabulek a sloupců obsahují malá písmena, uvozujte identifikátor objektu v dotazu, například select * from "schema"."myTable".

V části Upřesnit můžete zadat následující pole:

  • Integrace úložiště: Zadejte název integrace úložiště, kterou jste vytvořili ve Snowflake. Požadavky na použití integrace úložiště najdete v tématu Konfigurace integrace úložiště Snowflake.

  • Další možnosti kopírování Snowflake: Zadejte další možnosti kopírování Snowflake, které se použijí v příkazu Snowflake COPY k načtení dat. Další možnosti kopírování jsou k dispozici jako slovník párů klíč-hodnota. Příklady: MAX_FILE_SIZE, PŘEPSÁNÍ. Další informace naleznete v tématu Možnosti kopírování Snowflake.

    Snímek obrazovky s dalšími možnostmi kopírování snowflake pro zdroj

  • Další možnosti formátu Snowflake: Zadejte další možnosti formátu Snowflake, které se použijí v příkazu Snowflake COPY k načtení dat. Další možnosti formátu souborů poskytované příkazu COPY jsou k dispozici jako slovník párů klíč-hodnota. Příklady: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Další informace najdete v tématu Možnosti typů formátu Snowflake.

    Snímek obrazovky s dalšími možnostmi formátu snowflake pro zdroj

Přímá kopie ze Snowflake

Pokud cílové úložiště dat a formát splňují kritéria popsaná v této části, můžete pomocí aktivita Copy přímo kopírovat z Snowflake do cíle. Služba zkontroluje nastavení a selže aktivita Copy spustit, pokud nejsou splněna následující kritéria:

  • Když zadáte integraci úložiště ve zdroji : Cílové úložiště dat je Azure Blob Storage, na které odkazujete v externí fázi snowflake. Před kopírováním dat je potřeba provést následující kroky:

    1. Vytvořte připojení Azure Blob Storage pro cílové úložiště objektů blob v Azure s libovolnými podporovanými typy ověřování.

    2. Udělte instančnímu objektu Snowflake v cílovém řízení přístupu ke službě Azure Blob Storage (IAM) alespoň roli Přispěvatel dat objektu blob služby Storage.

  • Pokud nezadáte integraci úložiště ve zdroji:

    Cílové připojení je Azure Blob Storage s ověřováním pomocí sdíleného přístupového podpisu. Pokud chcete přímo kopírovat data do Azure Data Lake Storage Gen2 v následujícím podporovaném formátu, můžete vytvořit připojení Azure Blob Storage s ověřováním SAS pro váš účet Azure Data Lake Storage Gen2, abyste se vyhnuli použití fázované kopie ze Snowflake.

  • Formát cílových dat je Parquet, DelimitedText nebo JSON s následujícími konfiguracemi:

    • Pro formát Parquet je kodek komprese None, Snappy nebo Lzo.
    • Formát DelimitedText :
      • Oddělovač řádků je \r\n nebo libovolný jeden znak.
      • Typ komprese může být None, gzip, bzip2 nebo deflate.
      • Kódování je ponecháno jako výchozí nebo je nastaveno na UTF-8.
      • Znak uvozovek je Dvojitá uvozovka, Jednoduchá uvozovka nebo Bez uvozovek.
    • U formátu JSON přímé kopírování podporuje pouze případ, kdy zdrojová tabulka Snowflake nebo výsledek dotazu má pouze jeden sloupec a datový typ tohoto sloupce je VARIANT, OBJECT nebo ARRAY.
      • Typ komprese může být None, gzip, bzip2 nebo deflate.
      • Kódování je ponecháno jako výchozí nebo je nastaveno na UTF-8.
      • Vzor souboru v cíli aktivity kopírování zůstane ve výchozím nastavení nebo je nastavený na Sadu objektů.
  • Ve zdroji aktivity kopírování není zadáno další sloupce .

  • Není zadáno mapování sloupců.

Fázovaná kopie ze Snowflake

Pokud cílové úložiště dat nebo formát není nativně kompatibilní s příkazem Snowflake COPY, jak je uvedeno v poslední části, povolte integrovanou fázovanou kopii pomocí dočasné instance služby Azure Blob Storage. Funkce fázovaného kopírování také poskytuje lepší propustnost. Služba exportuje data ze Snowflake do přípravného úložiště, pak zkopíruje data do cíle a nakonec vyčistí dočasná data z přípravného úložiště.

Pokud chcete tuto funkci použít, vytvořte připojení azure Blob Storage, které odkazuje na účet úložiště Azure jako dočasné přípravné prostředí. Pak přejděte na kartu Nastavení a nakonfigurujte přípravná nastavení. Abyste mohli nakonfigurovat přípravné připojení azure Blob Storage, musíte vybrat externí připojení.

  • Při zadávání integrace úložiště ve zdroji by průběžná příprava služby Azure Blob Storage měla být ta, která se odkazuje v externí fázi snowflake. Ujistěte se, že pro něj vytvoříte připojení služby Azure Blob Storage s jakýmkoli podporovaným ověřováním, a přidělte alespoň roli Přispěvatel dat objektů blob služby Snowflake instančnímu objektu služby Snowflake v přípravném řízení přístupu ke službě Azure Blob Storage (IAM). Je vyžadována cesta k úložišti v části Nastavení na kartě Nastavení .

  • Pokud nezadáte integraci úložiště ve zdroji, musí přípravné připojení ke službě Azure Blob Storage používat ověřování pomocí sdíleného přístupového podpisu, jak to vyžaduje příkaz Snowflake COPY. Ujistěte se, že v přípravné službě Azure Blob Storage udělíte správné oprávnění k přístupu snowflake. Další informace o tom najdete v tomto článku.

Cíl

Následující vlastnosti jsou podporovány pro Snowflake na kartě Cíl aktivity kopírování.

Snímek obrazovky zobrazující kartu Cíl

Jsou vyžadovány následující vlastnosti:

  • Typ úložiště dat: Vyberte externí.
  • Připojení: Ze seznamu připojení vyberte připojení Snowflake. Pokud připojení neexistuje, vytvořte nové připojení Snowflake výběrem možnosti Nový.
  • Databáze: Výchozí databáze, která se má použít po připojení. Měla by to být existující databáze, pro kterou má zadaná role oprávnění.
  • Tabulka: V rozevíracím seznamu vyberte tabulku v databázi. Nebo zaškrtněte políčko Upravit a zadejte název tabulky ručně.

V části Upřesnit můžete zadat následující pole:

  • Skript předběžného kopírování: Zadejte skript pro aktivitu kopírování, který se má spustit před zápisem dat do cílové tabulky v každém spuštění. Tuto vlastnost můžete použít k vyčištění předem načtených dat.

  • Integrace úložiště: Zadejte název integrace úložiště, kterou jste vytvořili ve Snowflake. Požadavky na použití integrace úložiště najdete v tématu Konfigurace integrace úložiště Snowflake.

  • Další možnosti kopírování Snowflake: Zadejte další možnosti kopírování Snowflake, které se použijí v příkazu Snowflake COPY k načtení dat. Další možnosti kopírování jsou k dispozici jako slovník párů klíč-hodnota. Příklady: ON_ERROR, FORCE, LOAD_UNCERTAIN_FILES. Další informace naleznete v tématu Možnosti kopírování Snowflake.

    Snímek obrazovky s dalšími možnostmi kopírování snowflake pro cíl

  • Další možnosti formátu Snowflake: Zadejte další možnosti formátu Snowflake, které se použijí v příkazu Snowflake COPY k načtení dat. Další možnosti formátu souborů poskytované příkazu COPY jsou k dispozici jako slovník párů klíč-hodnota. Příklady: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Další informace najdete v tématu Možnosti typů formátu Snowflake.

    Snímek obrazovky s dalšími možnostmi formátu snowflake pro cíl

Přímá kopie do Snowflake

Pokud vaše zdrojové úložiště dat a formát splňují kritéria popsaná v této části, můžete aktivita Copy použít k přímému kopírování ze zdroje do Snowflake. Služba zkontroluje nastavení a selže aktivita Copy spustit, pokud nejsou splněna následující kritéria:

  • Když v cíli zadáte integraci úložiště:

    Zdrojové úložiště dat je Azure Blob Storage, na které odkazujete v externí fázi Snowflake. Před kopírováním dat je potřeba provést následující kroky:

    1. Vytvořte připojení služby Azure Blob Storage pro zdrojovou službu Azure Blob Storage s libovolnými podporovanými typy ověřování.

    2. Udělte instančnímu objektu Snowflake ve zdrojovém řízení přístupu ke službě Azure Blob Storage (IAM) alespoň roli Čtenář dat objektu blob služby Storage.

  • Pokud v cíli nezadáte integraci úložiště:

    Zdrojové připojení je Azure Blob Storage s ověřováním pomocí sdíleného přístupového podpisu. Pokud chcete přímo kopírovat data z Azure Data Lake Storage Gen2 v následujícím podporovaném formátu, můžete vytvořit připojení Azure Blob Storage s ověřováním SAS pro váš účet Azure Data Lake Storage Gen2, abyste se vyhnuli použití fázované kopie do Snowflake.

  • Formát zdrojových dat je Parquet, DelimitedText nebo JSON s následujícími konfiguracemi:

    • U formátu Parquet je kodek komprese None (Žádný) nebo Snappy (Snappy).

    • Formát DelimitedText :

      • Oddělovač řádků je \r\n nebo libovolný jeden znak. Pokud oddělovač řádků není \r\n, první řádek, protože záhlaví není nevybrané a počet řádků přeskočit není zadaný.
      • Typ komprese může být None, gzip, bzip2 nebo deflate.
      • Kódování je ponecháno jako výchozí nebo je nastaveno na "UTF-8", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "BIG5", "EUC-JP", "EUC-KR", "GB18030", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9". "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255".
      • Znak uvozovek je Dvojitá uvozovka, Jednoduchá uvozovka nebo Bez uvozovek.
    • U formátu JSON přímé kopírování podporuje pouze případ, že cílová tabulka Snowflake má pouze jeden sloupec a datový typ tohoto sloupce je VARIANT, OBJECT nebo ARRAY.

      • Typ komprese může být None, gzip, bzip2 nebo deflate.
      • Kódování je ponecháno jako výchozí nebo je nastaveno na UTF-8.
      • Není zadáno mapování sloupců.
  • Ve zdroji aktivita Copy:

    • Další sloupce nejsou zadány.
    • Pokud je zdrojem složka, vybere se rekurzivně .
    • Předpona, čas zahájení (UTC) a koncový čas (UTC) ve filtru podle poslední změny a povolení zjišťování oddílů nejsou zadány.

Fázovaná kopie do Snowflake

Pokud zdrojové úložiště dat nebo formát není nativně kompatibilní s příkazem Snowflake COPY, jak je uvedeno v poslední části, povolte integrovanou fázovanou kopii pomocí dočasné instance služby Azure Blob Storage. Funkce fázovaného kopírování také poskytuje lepší propustnost. Služba automaticky převede data tak, aby splňovala požadavky na formát dat snowflake. Potom vyvolá příkaz COPY, který načte data do Snowflake. Nakonec vyčistí dočasná data z úložiště objektů blob.

Pokud chcete tuto funkci použít, vytvořte připojení azure Blob Storage, které odkazuje na účet úložiště Azure jako dočasné přípravné prostředí. Pak přejděte na kartu Nastavení a nakonfigurujte přípravná nastavení. Abyste mohli nakonfigurovat přípravné připojení azure Blob Storage, musíte vybrat externí připojení.

  • Když v cíli zadáte integraci úložiště, měla by být dočasná přípravná služba Azure Blob Storage ta, která se odkazuje v externí fázi ve Snowflake. Ujistěte se, že pro něj vytvoříte připojení služby Azure Blob Storage s jakýmkoli podporovaným ověřováním, a přidělte alespoň roli Čtenář dat objektů blob služby Snowflake instančnímu objektu služby Snowflake v přípravném řízení přístupu ke službě Azure Blob Storage (IAM). Je vyžadována cesta k úložišti v části Nastavení na kartě Nastavení .

  • Pokud neurčíte integraci úložiště v cíli, musí přípravné připojení azure Blob Storage používat ověřování pomocí sdíleného přístupového podpisu, jak to vyžaduje příkaz Snowflake COPY.

mapování.

V části Konfigurace karty Mapování přejděte na Konfigurace mapování na kartě Mapování.

Nastavení

V části Konfigurace karty Nastavení přejděte na Konfigurovat další nastavení na kartě Nastavení.

Souhrn tabulky

Následující tabulky obsahují další informace o aktivitě kopírování ve Snowflake.

Zdroj

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Typ úložiště dat Váš typ úložiště dat. Externí Ano /
Připojení Vaše připojení ke zdrojovému úložišti dat. < vaše připojení > Ano připojení
Databáze Vaše databáze, kterou používáte jako zdroj. < vaše databáze > Ano database
Použití dotazu Způsob čtení dat ze Snowflake. •Stůl
•Dotaz
No •stůl
•dotaz
Tabulka Název tabulky pro čtení dat. < název zdrojové tabulky> Ano schéma
table
Dotaz Dotaz SQL pro čtení dat ze Snowflake. < název zdrojového dotazu> Ano query
Integrace úložiště Zadejte název integrace úložiště, kterou jste vytvořili ve Snowflake. Požadavky na použití integrace úložiště najdete v tématu Konfigurace integrace úložiště Snowflake. < integrace úložiště > No storageIntegration
Další možnosti kopírování Snowflake Další možnosti kopírování, které jsou k dispozici jako slovník párů klíč-hodnota. Příklady: MAX_FILE_SIZE, PŘEPSÁNÍ. Další informace naleznete v tématu Možnosti kopírování Snowflake. • Jméno
•Hodnota
No additionalCopyOptions
Další možnosti formátu Snowflake Další možnosti formátu souboru, které jsou k dispozici pro příkaz COPY jako slovník párů klíč-hodnota. Příklady: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Další informace najdete v tématu Možnosti typů formátu Snowflake. • Jméno
•Hodnota
No additionalFormatOptions

Cíl

Poznámka:

I když jsou instance Snowflake mimo Azure podporované pro zdroj, pro cíle Snowflake (označované také jako jímky ve službě Azure Data Factory) se v současné době podporují pouze instance Azure Snowflake.

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Typ úložiště dat Váš typ úložiště dat. Externí Ano /
Připojení Vaše připojení k cílovému úložišti dat. < vaše připojení > Ano připojení
Databáze Databáze, kterou používáte jako cíl. < vaše databáze> Ano /
Tabulka Cílová tabulka dat < název cílové tabulky> Ano •schéma
•stůl
Skript předběžného kopírování Dotaz SQL pro aktivita Copy, který se má spustit před zápisem dat do Snowflake v každém spuštění. Tato vlastnost slouží k vyčištění předem načtených dat. < váš skript před kopírováním> NE preCopyScript
Integrace úložiště Zadejte název integrace úložiště, kterou jste vytvořili ve Snowflake. Požadavky na použití integrace úložiště najdete v tématu Konfigurace integrace úložiště Snowflake. < integrace úložiště > No storageIntegration
Další možnosti kopírování Snowflake Další možnosti kopírování, které jsou k dispozici jako slovník párů klíč-hodnota. Příklady: ON_ERROR, FORCE, LOAD_UNCERTAIN_FILES. Další informace naleznete v tématu Možnosti kopírování Snowflake. • Jméno
•Hodnota
No additionalCopyOptions
Další možnosti formátu Snowflake Další možnosti formátu souboru poskytnuté příkazu COPY, které jsou k dispozici jako slovník párů klíč-hodnota. Příklady: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Další informace najdete v tématu Možnosti typů formátu Snowflake. • Jméno
•Hodnota
No additionalFormatOptions