Konfigurace Snowflake v aktivitě kopírování
Tento článek popisuje, jak pomocí aktivity kopírování v datovém kanálu kopírovat data z a do Snowflake.
Podporovaná konfigurace
Konfigurace každé karty v aktivitě kopírování najdete v následujících částech.
OBECNÉ
Informace o konfiguraci karty Obecné nastavení najdete v doprovodných materiálech k obecným nastavením.
Zdroj
Následující vlastnosti jsou podporovány pro Snowflake na kartě Zdroj aktivity kopírování.
Jsou vyžadovány následující vlastnosti:
- Typ úložiště dat: Vyberte externí.
- Připojení: Ze seznamu připojení vyberte připojení Snowflake. Pokud připojení neexistuje, vytvořte nové připojení Snowflake výběrem možnosti Nový.
- Databáze: Výchozí databáze, která se má použít po připojení. Měla by to být existující databáze, pro kterou má zadaná role oprávnění.
- Použít dotaz: Jako dotaz pro použití můžete zvolit tabulku nebo dotaz . Následující seznam popisuje konfiguraci jednotlivých nastavení.
- Tabulka: V rozevíracím seznamu vyberte tabulku v databázi. Nebo zaškrtněte políčko Upravit a zadejte název tabulky ručně.
- Dotaz: Zadejte dotaz SQL pro čtení dat ze Snowflake. Pokud názvy schématu, tabulek a sloupců obsahují malá písmena, uvozujte identifikátor objektu v dotazu, například
select * from "schema"."myTable"
.
V části Upřesnit můžete zadat následující pole:
Integrace úložiště: Zadejte název integrace úložiště, kterou jste vytvořili ve Snowflake. Požadavky na použití integrace úložiště najdete v tématu Konfigurace integrace úložiště Snowflake.
Další možnosti kopírování Snowflake: Zadejte další možnosti kopírování Snowflake, které se použijí v příkazu Snowflake COPY k načtení dat. Další možnosti kopírování jsou k dispozici jako slovník párů klíč-hodnota. Příklady: MAX_FILE_SIZE, PŘEPSÁNÍ. Další informace naleznete v tématu Možnosti kopírování Snowflake.
Další možnosti formátu Snowflake: Zadejte další možnosti formátu Snowflake, které se použijí v příkazu Snowflake COPY k načtení dat. Další možnosti formátu souborů poskytované příkazu COPY jsou k dispozici jako slovník párů klíč-hodnota. Příklady: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Další informace najdete v tématu Možnosti typů formátu Snowflake.
Přímá kopie ze Snowflake
Pokud cílové úložiště dat a formát splňují kritéria popsaná v této části, můžete pomocí aktivita Copy přímo kopírovat z Snowflake do cíle. Služba zkontroluje nastavení a selže aktivita Copy spustit, pokud nejsou splněna následující kritéria:
Když zadáte integraci úložiště ve zdroji : Cílové úložiště dat je Azure Blob Storage, na které odkazujete v externí fázi snowflake. Před kopírováním dat je potřeba provést následující kroky:
Vytvořte připojení Azure Blob Storage pro cílové úložiště objektů blob v Azure s libovolnými podporovanými typy ověřování.
Udělte instančnímu objektu Snowflake v cílovém řízení přístupu ke službě Azure Blob Storage (IAM) alespoň roli Přispěvatel dat objektu blob služby Storage.
Pokud nezadáte integraci úložiště ve zdroji:
Cílové připojení je Azure Blob Storage s ověřováním pomocí sdíleného přístupového podpisu. Pokud chcete přímo kopírovat data do Azure Data Lake Storage Gen2 v následujícím podporovaném formátu, můžete vytvořit připojení Azure Blob Storage s ověřováním SAS pro váš účet Azure Data Lake Storage Gen2, abyste se vyhnuli použití fázované kopie ze Snowflake.
Formát cílových dat je Parquet, DelimitedText nebo JSON s následujícími konfiguracemi:
- Pro formát Parquet je kodek komprese None, Snappy nebo Lzo.
- Formát DelimitedText :
- Oddělovač řádků je \r\n nebo libovolný jeden znak.
- Typ komprese může být None, gzip, bzip2 nebo deflate.
- Kódování je ponecháno jako výchozí nebo je nastaveno na UTF-8.
- Znak uvozovek je Dvojitá uvozovka, Jednoduchá uvozovka nebo Bez uvozovek.
- U formátu JSON přímé kopírování podporuje pouze případ, kdy zdrojová tabulka Snowflake nebo výsledek dotazu má pouze jeden sloupec a datový typ tohoto sloupce je VARIANT, OBJECT nebo ARRAY.
- Typ komprese může být None, gzip, bzip2 nebo deflate.
- Kódování je ponecháno jako výchozí nebo je nastaveno na UTF-8.
- Vzor souboru v cíli aktivity kopírování zůstane ve výchozím nastavení nebo je nastavený na Sadu objektů.
Ve zdroji aktivity kopírování není zadáno další sloupce .
Není zadáno mapování sloupců.
Fázovaná kopie ze Snowflake
Pokud cílové úložiště dat nebo formát není nativně kompatibilní s příkazem Snowflake COPY, jak je uvedeno v poslední části, povolte integrovanou fázovanou kopii pomocí dočasné instance služby Azure Blob Storage. Funkce fázovaného kopírování také poskytuje lepší propustnost. Služba exportuje data ze Snowflake do přípravného úložiště, pak zkopíruje data do cíle a nakonec vyčistí dočasná data z přípravného úložiště.
Pokud chcete tuto funkci použít, vytvořte připojení azure Blob Storage, které odkazuje na účet úložiště Azure jako dočasné přípravné prostředí. Pak přejděte na kartu Nastavení a nakonfigurujte přípravná nastavení. Abyste mohli nakonfigurovat přípravné připojení azure Blob Storage, musíte vybrat externí připojení.
Při zadávání integrace úložiště ve zdroji by průběžná příprava služby Azure Blob Storage měla být ta, která se odkazuje v externí fázi snowflake. Ujistěte se, že pro něj vytvoříte připojení služby Azure Blob Storage s jakýmkoli podporovaným ověřováním, a přidělte alespoň roli Přispěvatel dat objektů blob služby Snowflake instančnímu objektu služby Snowflake v přípravném řízení přístupu ke službě Azure Blob Storage (IAM). Je vyžadována cesta k úložišti v části Nastavení na kartě Nastavení .
Pokud nezadáte integraci úložiště ve zdroji, musí přípravné připojení ke službě Azure Blob Storage používat ověřování pomocí sdíleného přístupového podpisu, jak to vyžaduje příkaz Snowflake COPY. Ujistěte se, že v přípravné službě Azure Blob Storage udělíte správné oprávnění k přístupu snowflake. Další informace o tom najdete v tomto článku.
Cíl
Následující vlastnosti jsou podporovány pro Snowflake na kartě Cíl aktivity kopírování.
Jsou vyžadovány následující vlastnosti:
- Typ úložiště dat: Vyberte externí.
- Připojení: Ze seznamu připojení vyberte připojení Snowflake. Pokud připojení neexistuje, vytvořte nové připojení Snowflake výběrem možnosti Nový.
- Databáze: Výchozí databáze, která se má použít po připojení. Měla by to být existující databáze, pro kterou má zadaná role oprávnění.
- Tabulka: V rozevíracím seznamu vyberte tabulku v databázi. Nebo zaškrtněte políčko Upravit a zadejte název tabulky ručně.
V části Upřesnit můžete zadat následující pole:
Skript předběžného kopírování: Zadejte skript pro aktivitu kopírování, který se má spustit před zápisem dat do cílové tabulky v každém spuštění. Tuto vlastnost můžete použít k vyčištění předem načtených dat.
Integrace úložiště: Zadejte název integrace úložiště, kterou jste vytvořili ve Snowflake. Požadavky na použití integrace úložiště najdete v tématu Konfigurace integrace úložiště Snowflake.
Další možnosti kopírování Snowflake: Zadejte další možnosti kopírování Snowflake, které se použijí v příkazu Snowflake COPY k načtení dat. Další možnosti kopírování jsou k dispozici jako slovník párů klíč-hodnota. Příklady: ON_ERROR, FORCE, LOAD_UNCERTAIN_FILES. Další informace naleznete v tématu Možnosti kopírování Snowflake.
Další možnosti formátu Snowflake: Zadejte další možnosti formátu Snowflake, které se použijí v příkazu Snowflake COPY k načtení dat. Další možnosti formátu souborů poskytované příkazu COPY jsou k dispozici jako slovník párů klíč-hodnota. Příklady: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Další informace najdete v tématu Možnosti typů formátu Snowflake.
Přímá kopie do Snowflake
Pokud vaše zdrojové úložiště dat a formát splňují kritéria popsaná v této části, můžete aktivita Copy použít k přímému kopírování ze zdroje do Snowflake. Služba zkontroluje nastavení a selže aktivita Copy spustit, pokud nejsou splněna následující kritéria:
Když v cíli zadáte integraci úložiště:
Zdrojové úložiště dat je Azure Blob Storage, na které odkazujete v externí fázi Snowflake. Před kopírováním dat je potřeba provést následující kroky:
Vytvořte připojení služby Azure Blob Storage pro zdrojovou službu Azure Blob Storage s libovolnými podporovanými typy ověřování.
Udělte instančnímu objektu Snowflake ve zdrojovém řízení přístupu ke službě Azure Blob Storage (IAM) alespoň roli Čtenář dat objektu blob služby Storage.
Pokud v cíli nezadáte integraci úložiště:
Zdrojové připojení je Azure Blob Storage s ověřováním pomocí sdíleného přístupového podpisu. Pokud chcete přímo kopírovat data z Azure Data Lake Storage Gen2 v následujícím podporovaném formátu, můžete vytvořit připojení Azure Blob Storage s ověřováním SAS pro váš účet Azure Data Lake Storage Gen2, abyste se vyhnuli použití fázované kopie do Snowflake.
Formát zdrojových dat je Parquet, DelimitedText nebo JSON s následujícími konfiguracemi:
U formátu Parquet je kodek komprese None (Žádný) nebo Snappy (Snappy).
Formát DelimitedText :
- Oddělovač řádků je \r\n nebo libovolný jeden znak. Pokud oddělovač řádků není \r\n, první řádek, protože záhlaví není nevybrané a počet řádků přeskočit není zadaný.
- Typ komprese může být None, gzip, bzip2 nebo deflate.
- Kódování je ponecháno jako výchozí nebo je nastaveno na "UTF-8", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "BIG5", "EUC-JP", "EUC-KR", "GB18030", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9". "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255".
- Znak uvozovek je Dvojitá uvozovka, Jednoduchá uvozovka nebo Bez uvozovek.
U formátu JSON přímé kopírování podporuje pouze případ, že cílová tabulka Snowflake má pouze jeden sloupec a datový typ tohoto sloupce je VARIANT, OBJECT nebo ARRAY.
- Typ komprese může být None, gzip, bzip2 nebo deflate.
- Kódování je ponecháno jako výchozí nebo je nastaveno na UTF-8.
- Není zadáno mapování sloupců.
Ve zdroji aktivita Copy:
- Další sloupce nejsou zadány.
- Pokud je zdrojem složka, vybere se rekurzivně .
- Předpona, čas zahájení (UTC) a koncový čas (UTC) ve filtru podle poslední změny a povolení zjišťování oddílů nejsou zadány.
Fázovaná kopie do Snowflake
Pokud zdrojové úložiště dat nebo formát není nativně kompatibilní s příkazem Snowflake COPY, jak je uvedeno v poslední části, povolte integrovanou fázovanou kopii pomocí dočasné instance služby Azure Blob Storage. Funkce fázovaného kopírování také poskytuje lepší propustnost. Služba automaticky převede data tak, aby splňovala požadavky na formát dat snowflake. Potom vyvolá příkaz COPY, který načte data do Snowflake. Nakonec vyčistí dočasná data z úložiště objektů blob.
Pokud chcete tuto funkci použít, vytvořte připojení azure Blob Storage, které odkazuje na účet úložiště Azure jako dočasné přípravné prostředí. Pak přejděte na kartu Nastavení a nakonfigurujte přípravná nastavení. Abyste mohli nakonfigurovat přípravné připojení azure Blob Storage, musíte vybrat externí připojení.
Když v cíli zadáte integraci úložiště, měla by být dočasná přípravná služba Azure Blob Storage ta, která se odkazuje v externí fázi ve Snowflake. Ujistěte se, že pro něj vytvoříte připojení služby Azure Blob Storage s jakýmkoli podporovaným ověřováním, a přidělte alespoň roli Čtenář dat objektů blob služby Snowflake instančnímu objektu služby Snowflake v přípravném řízení přístupu ke službě Azure Blob Storage (IAM). Je vyžadována cesta k úložišti v části Nastavení na kartě Nastavení .
Pokud neurčíte integraci úložiště v cíli, musí přípravné připojení azure Blob Storage používat ověřování pomocí sdíleného přístupového podpisu, jak to vyžaduje příkaz Snowflake COPY.
mapování.
V části Konfigurace karty Mapování přejděte na Konfigurace mapování na kartě Mapování.
Nastavení
V části Konfigurace karty Nastavení přejděte na Konfigurovat další nastavení na kartě Nastavení.
Souhrn tabulky
Následující tabulky obsahují další informace o aktivitě kopírování ve Snowflake.
Zdroj
Název | Popis | Hodnota | Požaduje se | Vlastnost skriptu JSON |
---|---|---|---|---|
Typ úložiště dat | Váš typ úložiště dat. | Externí | Ano | / |
Připojení | Vaše připojení ke zdrojovému úložišti dat. | < vaše připojení > | Ano | připojení |
Databáze | Vaše databáze, kterou používáte jako zdroj. | < vaše databáze > | Ano | database |
Použití dotazu | Způsob čtení dat ze Snowflake. | •Stůl •Dotaz |
No | •stůl •dotaz |
Tabulka | Název tabulky pro čtení dat. | < název zdrojové tabulky> | Ano | schéma table |
Dotaz | Dotaz SQL pro čtení dat ze Snowflake. | < název zdrojového dotazu> | Ano | query |
Integrace úložiště | Zadejte název integrace úložiště, kterou jste vytvořili ve Snowflake. Požadavky na použití integrace úložiště najdete v tématu Konfigurace integrace úložiště Snowflake. | < integrace úložiště > | No | storageIntegration |
Další možnosti kopírování Snowflake | Další možnosti kopírování, které jsou k dispozici jako slovník párů klíč-hodnota. Příklady: MAX_FILE_SIZE, PŘEPSÁNÍ. Další informace naleznete v tématu Možnosti kopírování Snowflake. | • Jméno •Hodnota |
No | additionalCopyOptions |
Další možnosti formátu Snowflake | Další možnosti formátu souboru, které jsou k dispozici pro příkaz COPY jako slovník párů klíč-hodnota. Příklady: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Další informace najdete v tématu Možnosti typů formátu Snowflake. | • Jméno •Hodnota |
No | additionalFormatOptions |
Cíl
Poznámka:
I když jsou instance Snowflake mimo Azure podporované pro zdroj, pro cíle Snowflake (označované také jako jímky ve službě Azure Data Factory) se v současné době podporují pouze instance Azure Snowflake.
Název | Popis | Hodnota | Požaduje se | Vlastnost skriptu JSON |
---|---|---|---|---|
Typ úložiště dat | Váš typ úložiště dat. | Externí | Ano | / |
Připojení | Vaše připojení k cílovému úložišti dat. | < vaše připojení > | Ano | připojení |
Databáze | Databáze, kterou používáte jako cíl. | < vaše databáze> | Ano | / |
Tabulka | Cílová tabulka dat | < název cílové tabulky> | Ano | •schéma •stůl |
Skript předběžného kopírování | Dotaz SQL pro aktivita Copy, který se má spustit před zápisem dat do Snowflake v každém spuštění. Tato vlastnost slouží k vyčištění předem načtených dat. | < váš skript před kopírováním> | NE | preCopyScript |
Integrace úložiště | Zadejte název integrace úložiště, kterou jste vytvořili ve Snowflake. Požadavky na použití integrace úložiště najdete v tématu Konfigurace integrace úložiště Snowflake. | < integrace úložiště > | No | storageIntegration |
Další možnosti kopírování Snowflake | Další možnosti kopírování, které jsou k dispozici jako slovník párů klíč-hodnota. Příklady: ON_ERROR, FORCE, LOAD_UNCERTAIN_FILES. Další informace naleznete v tématu Možnosti kopírování Snowflake. | • Jméno •Hodnota |
No | additionalCopyOptions |
Další možnosti formátu Snowflake | Další možnosti formátu souboru poskytnuté příkazu COPY, které jsou k dispozici jako slovník párů klíč-hodnota. Příklady: DATE_FORMAT, TIME_FORMAT, TIMESTAMP_FORMAT. Další informace najdete v tématu Možnosti typů formátu Snowflake. | • Jméno •Hodnota |
No | additionalFormatOptions |