Sdílet prostřednictvím


Osvědčené postupy pro zápis do souborů do data Lake s toky dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.

V tomto kurzu se seznámíte s osvědčenými postupy, které se dají použít při zápisu souborů do ADLS Gen2 nebo Azure Blob Storage pomocí toků dat. Ke čtení souboru parquet a následnému ukládání výsledků do složek budete potřebovat přístup k účtu služby Azure Blob Storage nebo účtu Azure Data Lake Store Gen2.

Požadavky

  • Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
  • Účet služby Azure Storage. Úložiště ADLS používáte jako úložiště dat zdroje a jímky . Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření.

Kroky v tomto kurzu předpokládají, že máte

Vytvoření datové továrny

V tomto kroku vytvoříte datovou továrnu a otevřete UX služby Data Factory, abyste vytvořili kanál v datové továrně.

  1. Otevřete Microsoft Edge nebo Google Chrome. V současné době se uživatelské rozhraní služby Data Factory podporuje jenom ve webových prohlížečích Microsoft Edge a Google Chrome.

  2. V nabídce vlevo vyberte Vytvořit službu Data Factory pro integraci>prostředků.>

  3. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

  4. Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.

  5. U položky Skupina prostředků proveďte jeden z následujících kroků:

    a. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.

    b. Vyberte Vytvořit nový a zadejte název skupiny prostředků. Další informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  6. Jako Verzi vyberte V2.

  7. V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a SQL Database) a výpočty (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.

  8. Vyberte Vytvořit.

  9. Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Datové továrny.

  10. Vyberte Vytvořit a monitorovat. Na samostatné kartě se spustí uživatelské rozhraní služby Data Factory.

Vytvoření kanálu s aktivitou toku dat

V tomto kroku vytvoříte kanál, který obsahuje aktivitu toku dat.

  1. Na domovské stránce služby Azure Data Factory vyberte Orchestrate (Orchestrate).

    Snímek obrazovky znázorňující domovskou stránku datové továrny se zvýrazněným tlačítkem Orchestrate

  2. Na kartě Obecné pro kanál zadejte DeltaLake pro název kanálu.

  3. Na horním panelu továrny posuňte posuvník Tok dat ladění. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Tok dat clusterů trvá 5 až 7 minut, než se zahřejí, a pokud plánují vývoj Tok dat, doporučuje se nejprve zapnout ladění. Další informace naleznete v tématu Režim ladění.

    Aktivita Tok dat

  4. V podokně Aktivity rozbalte accordion Přesunout a transformovat . Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.

    Snímek obrazovky znázorňující plátno kanálu, kde můžete vypustit Tok dat aktivitu

  5. V místní nabídce Přidání Tok dat vyberte Vytvořit nový Tok dat a pak pojmenujte tok dat DeltaLake. Po dokončení klikněte na Dokončit.

    Snímek obrazovky znázorňující, kde při vytváření nového toku dat pojmenujete tok dat

Vytvoření logiky transformace na plátně toku dat

Použijete všechna zdrojová data (v tomto kurzu použijeme zdroj souborů Parquet) a pomocí transformace jímky přisadíte data ve formátu Parquet pomocí nejúčinnějších mechanismů pro data lake ETL.

Konečný tok

Cíle kurzu

  1. Zvolte některou ze zdrojových datových sad v novém toku dat 1. Efektivní rozdělení datové sady jímky pomocí toků dat
  2. Vytvoření dělených dat ve složkách ADLS Gen2 Lake

Začínáme z prázdného plátna toku dat

Nejprve nastavíme prostředí toku dat pro každý z níže popsaných mechanismů pro cílová data v ADLS Gen2.

  1. Klikněte na zdrojová transformace.
  2. Klikněte na nové tlačítko vedle datové sady v dolním panelu.
  3. Zvolte datovou sadu nebo vytvořte novou. Pro tuto ukázku použijeme datovou sadu Parquet s názvem Uživatelská data.
  4. Přidání transformace odvozeného sloupce Použijeme ho jako způsob dynamického nastavení požadovaných názvů složek.
  5. Přidejte transformaci jímky.

Výstup hierarchické složky

K vytvoření hierarchií složek k rozdělení dat do jezera je velmi běžné použít jedinečné hodnoty. Jedná se o velmi optimální způsob, jak uspořádat a zpracovávat data v jezeře a ve Sparku (výpočetní modul za toky dat). K uspořádání výstupu tímto způsobem však budou mít malé náklady na výkon. Očekáváme, že se při použití tohoto mechanismu v jímce zobrazí malý pokles celkového výkonu kanálu.

  1. Vraťte se do návrháře toku dat a upravte tok dat, který vytvoříte výše. Klikněte na transformaci jímky.
  2. Klikněte na optimalizovat > klíč dělení na oddíly > .
  3. Vyberte sloupce, které chcete použít k nastavení struktury hierarchických složek.
  4. Všimněte si, že následující příklad používá jako sloupce pro pojmenování složek rok a měsíc. Výsledky budou složky formuláře releaseyear=1990/month=8.
  5. Při přístupu k datovým oddílům ve zdroji toku dat budete odkazovat pouze na složku nejvyšší úrovně výše releaseyear a pro každou další složku použijete zástupný znak, například: **/**/*.parquet
  6. Pokud chcete manipulovat s datovými hodnotami nebo i v případě, že potřebujete vygenerovat syntetické hodnoty pro názvy složek, vytvořte pomocí transformace Odvozený sloupec hodnoty, které chcete použít v názvech složek.

Dělení klíčů

Název složky jako datové hodnoty

Mírně lepší technikou jímky pro data lake pomocí ADLS Gen2, která nenabízí stejnou výhodu jako dělení klíč/hodnota, je Name folder as column data. Zatímco styl dělení klíčů hierarchické struktury vám umožní snadněji zpracovávat řezy dat, tato technika je zploštěná struktura složek, která dokáže rychleji zapisovat data.

  1. Vraťte se do návrháře toku dat a upravte tok dat, který vytvoříte výše. Klikněte na transformaci jímky.
  2. Klepněte na tlačítko Optimalizovat > nastavení dělení > Použít aktuální dělení.
  3. Klikněte na složku Název nastavení > jako data sloupce.
  4. Vyberte sloupec, který chcete použít ke generování názvů složek.
  5. Pokud chcete manipulovat s datovými hodnotami nebo i v případě, že potřebujete vygenerovat syntetické hodnoty pro názvy složek, vytvořte pomocí transformace Odvozený sloupec hodnoty, které chcete použít v názvech složek.

Možnost Složky

Název souboru jako datových hodnot

Techniky uvedené v předchozích kurzech jsou vhodné případy použití pro vytváření kategorií složek ve vašem datovém jezeře. Výchozím schématem pojmenování souborů, které tyto techniky používají, je použití ID úlohy Exekutoru Sparku. Někdy můžete chtít nastavit název výstupního souboru v textové jímce toku dat. Tato technika se navrhuje jenom pro použití s malými soubory. Proces sloučení souborů oddílů do jednoho výstupního souboru je dlouhotrvající proces.

  1. Vraťte se do návrháře toku dat a upravte tok dat, který vytvoříte výše. Klikněte na transformaci jímky.
  2. Klepněte na tlačítko Optimalizovat > nastavení dělení > Jeden oddíl. Jedná se o požadavek na jeden oddíl, který při slučování souborů vytváří kritický bod v procesu provádění. Tato možnost se doporučuje jenom pro malé soubory.
  3. Klikněte na soubor Název nastavení > jako data sloupce.
  4. Vyberte sloupec, který chcete použít ke generování názvů souborů.
  5. Pokud chcete manipulovat s datovými hodnotami, nebo i když potřebujete vygenerovat syntetické hodnoty pro názvy souborů, vytvořte pomocí transformace odvozeného sloupce hodnoty, které chcete použít v názvech souborů.

Přečtěte si další informace o jímkách toku dat.