Sdílet prostřednictvím


Odstranění řádků a vyhledání hodnot null pomocí fragmentů toku dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Pomocí fragmentů kódu při mapování toků dat můžete snadno provádět běžné úlohy, jako je odstranění duplicitních dat a filtrování hodnot null. Tento článek vysvětluje, jak tyto funkce snadno přidat do kanálů pomocí fragmentů skriptů toku dat.

Vytvořit kanál

  1. Vyberte Nový kanál.

  2. Přidání aktivity toku dat

  3. Vyberte kartu Nastavení zdroje, přidejte zdrojovou transformaci a pak ji připojte k jedné z datových sad.

    Snímek obrazovky s

    Fragmenty odstranění a kontroly null používají obecné vzory, které využívají posun schématu toku dat. Fragmenty kódu pracují s libovolným schématem z vaší datové sady nebo s datovými sadami, které nemají předdefinované schéma.

  4. V části Distinct row using all columns ( Distinct row using all columns) skriptu toku dat (DFS) zkopírujte fragment kódu pro DistinctRows.

  5. Přejděte na stránku dokumentace ke skriptu Tok dat a zkopírujte fragment kódu pro jedinečné řádky.

    Snímek obrazovky se zdrojovým fragmentem kódu

  6. Ve skriptu po definici source1stiskněte Enter a vložte fragment kódu.

  7. Proveďte jednu z následujících akcí:

    • Připojte tento vložený fragment kódu ke zdrojové transformaci, kterou jste vytvořili dříve v grafu, zadáním zdroje1 před vložený kód.

    • Případně můžete novou transformaci v návrháři propojit výběrem příchozího datového proudu z nového uzlu transformace v grafu.

      Snímek obrazovky s

    Tok dat teď ze zdroje odebere duplicitní řádky pomocí agregované transformace, která seskupí podle všech řádků pomocí obecné hodnoty hash ve všech hodnotách sloupců.

  8. Přidejte fragment kódu pro rozdělení dat do jednoho datového proudu, který obsahuje řádky s hodnotami null a další datový proud bez hodnot null. Postup:

  9. Vraťte se do knihovny fragmentů kódu a tentokrát zkopírujte kód pro kontroly NULL.

    b. V návrháři toku dat znovu vyberte Skript a vložte tento nový transformační kód do dolní části. Tato akce připojí skript k předchozí transformaci tak, že před vložený fragment kódu umístí název této transformace.

    Graf toku dat by teď měl vypadat nějak takto:

    Snímek obrazovky s grafem toku dat

Teď jste vytvořili pracovní tok dat s obecnými odstraněním a kontrolou hodnoty null tak, že vezmete existující fragmenty kódu z knihovny Tok dat skriptů a přidáte je do stávajícího návrhu.

  • Sestavte zbytek logiky toku dat pomocí transformací toků dat mapování.