Osvědčené postupy pro zápis do souborů do data Lake s toky dat
PLATÍ PRO: Azure Data Factory
Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.
V tomto kurzu se seznámíte s osvědčenými postupy, které se dají použít při zápisu souborů do ADLS Gen2 nebo Azure Blob Storage pomocí toků dat. Ke čtení souboru parquet a následnému ukládání výsledků do složek budete potřebovat přístup k účtu služby Azure Blob Storage nebo účtu Azure Data Lake Store Gen2.
Požadavky
- Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
- Účet služby Azure Storage. Úložiště ADLS používáte jako úložiště dat zdroje a jímky . Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření.
Kroky v tomto kurzu předpokládají, že máte
Vytvoření datové továrny
V tomto kroku vytvoříte datovou továrnu a otevřete UX služby Data Factory, abyste vytvořili kanál v datové továrně.
Otevřete Microsoft Edge nebo Google Chrome. V současné době se uživatelské rozhraní služby Data Factory podporuje jenom ve webových prohlížečích Microsoft Edge a Google Chrome.
V nabídce vlevo vyberte Vytvořit službu Data Factory pro integraci>prostředků.>
Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.
Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.
U položky Skupina prostředků proveďte jeden z následujících kroků:
a. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.
b. Vyberte Vytvořit nový a zadejte název skupiny prostředků. Další informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.
Jako Verzi vyberte V2.
V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a SQL Database) a výpočty (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.
Vyberte Vytvořit.
Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Datové továrny.
Vyberte Vytvořit a monitorovat. Na samostatné kartě se spustí uživatelské rozhraní služby Data Factory.
Vytvoření kanálu s aktivitou toku dat
V tomto kroku vytvoříte kanál, který obsahuje aktivitu toku dat.
Na domovské stránce služby Azure Data Factory vyberte Orchestrate (Orchestrate).
Na kartě Obecné pro kanál zadejte DeltaLake pro název kanálu.
Na horním panelu továrny posuňte posuvník Tok dat ladění. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Tok dat clusterů trvá 5 až 7 minut, než se zahřejí, a pokud plánují vývoj Tok dat, doporučuje se nejprve zapnout ladění. Další informace naleznete v tématu Režim ladění.
V podokně Aktivity rozbalte accordion Přesunout a transformovat . Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.
V místní nabídce Přidání Tok dat vyberte Vytvořit nový Tok dat a pak pojmenujte tok dat DeltaLake. Po dokončení klikněte na Dokončit.
Vytvoření logiky transformace na plátně toku dat
Použijete všechna zdrojová data (v tomto kurzu použijeme zdroj souborů Parquet) a pomocí transformace jímky přisadíte data ve formátu Parquet pomocí nejúčinnějších mechanismů pro data lake ETL.
Cíle kurzu
- Zvolte některou ze zdrojových datových sad v novém toku dat 1. Efektivní rozdělení datové sady jímky pomocí toků dat
- Vytvoření dělených dat ve složkách ADLS Gen2 Lake
Začínáme z prázdného plátna toku dat
Nejprve nastavíme prostředí toku dat pro každý z níže popsaných mechanismů pro cílová data v ADLS Gen2.
- Klikněte na zdrojová transformace.
- Klikněte na nové tlačítko vedle datové sady v dolním panelu.
- Zvolte datovou sadu nebo vytvořte novou. Pro tuto ukázku použijeme datovou sadu Parquet s názvem Uživatelská data.
- Přidání transformace odvozeného sloupce Použijeme ho jako způsob dynamického nastavení požadovaných názvů složek.
- Přidejte transformaci jímky.
Výstup hierarchické složky
K vytvoření hierarchií složek k rozdělení dat do jezera je velmi běžné použít jedinečné hodnoty. Jedná se o velmi optimální způsob, jak uspořádat a zpracovávat data v jezeře a ve Sparku (výpočetní modul za toky dat). K uspořádání výstupu tímto způsobem však budou mít malé náklady na výkon. Očekáváme, že se při použití tohoto mechanismu v jímce zobrazí malý pokles celkového výkonu kanálu.
- Vraťte se do návrháře toku dat a upravte tok dat, který vytvoříte výše. Klikněte na transformaci jímky.
- Klikněte na optimalizovat > klíč dělení na oddíly > .
- Vyberte sloupce, které chcete použít k nastavení struktury hierarchických složek.
- Všimněte si, že následující příklad používá jako sloupce pro pojmenování složek rok a měsíc. Výsledky budou složky formuláře
releaseyear=1990/month=8
. - Při přístupu k datovým oddílům ve zdroji toku dat budete odkazovat pouze na složku nejvyšší úrovně výše
releaseyear
a pro každou další složku použijete zástupný znak, například:**/**/*.parquet
- Pokud chcete manipulovat s datovými hodnotami nebo i v případě, že potřebujete vygenerovat syntetické hodnoty pro názvy složek, vytvořte pomocí transformace Odvozený sloupec hodnoty, které chcete použít v názvech složek.
Název složky jako datové hodnoty
Mírně lepší technikou jímky pro data lake pomocí ADLS Gen2, která nenabízí stejnou výhodu jako dělení klíč/hodnota, je Name folder as column data
. Zatímco styl dělení klíčů hierarchické struktury vám umožní snadněji zpracovávat řezy dat, tato technika je zploštěná struktura složek, která dokáže rychleji zapisovat data.
- Vraťte se do návrháře toku dat a upravte tok dat, který vytvoříte výše. Klikněte na transformaci jímky.
- Klepněte na tlačítko Optimalizovat > nastavení dělení > Použít aktuální dělení.
- Klikněte na složku Název nastavení > jako data sloupce.
- Vyberte sloupec, který chcete použít ke generování názvů složek.
- Pokud chcete manipulovat s datovými hodnotami nebo i v případě, že potřebujete vygenerovat syntetické hodnoty pro názvy složek, vytvořte pomocí transformace Odvozený sloupec hodnoty, které chcete použít v názvech složek.
Název souboru jako datových hodnot
Techniky uvedené v předchozích kurzech jsou vhodné případy použití pro vytváření kategorií složek ve vašem datovém jezeře. Výchozím schématem pojmenování souborů, které tyto techniky používají, je použití ID úlohy Exekutoru Sparku. Někdy můžete chtít nastavit název výstupního souboru v textové jímce toku dat. Tato technika se navrhuje jenom pro použití s malými soubory. Proces sloučení souborů oddílů do jednoho výstupního souboru je dlouhotrvající proces.
- Vraťte se do návrháře toku dat a upravte tok dat, který vytvoříte výše. Klikněte na transformaci jímky.
- Klepněte na tlačítko Optimalizovat > nastavení dělení > Jeden oddíl. Jedná se o požadavek na jeden oddíl, který při slučování souborů vytváří kritický bod v procesu provádění. Tato možnost se doporučuje jenom pro malé soubory.
- Klikněte na soubor Název nastavení > jako data sloupce.
- Vyberte sloupec, který chcete použít ke generování názvů souborů.
- Pokud chcete manipulovat s datovými hodnotami, nebo i když potřebujete vygenerovat syntetické hodnoty pro názvy souborů, vytvořte pomocí transformace odvozeného sloupce hodnoty, které chcete použít v názvech souborů.
Související obsah
Přečtěte si další informace o jímkách toku dat.