Udostępnij za pośrednictwem


Deduplikuj wiersze i znajdź wartości null przy użyciu fragmentów kodu przepływu danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Używając fragmentów kodu w przepływach danych mapowania, można łatwo wykonywać typowe zadania, takie jak deduplikacja danych i filtrowanie wartości null. W tym artykule wyjaśniono, jak łatwo dodawać te funkcje do potoków przy użyciu fragmentów skryptu przepływu danych.

Tworzenie potoku

  1. Wybierz pozycję Nowy potok.

  2. Dodaj działanie przepływu danych.

  3. Wybierz kartę Ustawienia źródła, dodaj przekształcenie źródła, a następnie połącz je z jednym z zestawów danych.

    Zrzut ekranu przedstawiający

    Fragmenty kodu deduplikacji i sprawdzania wartości null używają ogólnych wzorców, które korzystają z dryfu schematu przepływu danych. Fragmenty kodu działają z dowolnym schematem z zestawu danych lub zestawami danych, które nie mają wstępnie zdefiniowanego schematu.

  4. W sekcji "Distinct row using all columns" (Distinct row using all columns) ( Unikatowe wiersze używające wszystkich kolumn) skryptu przepływu danych (DFS) skopiuj fragment kodu dla funkcji DistinctRows.

  5. Przejdź do strony dokumentacji skryptu Przepływ danych i skopiuj fragment kodu dla odrębnych wierszy.

    Zrzut ekranu przedstawiający fragment kodu źródłowego.

  6. W skrypcie po definicji source1naciśnij Enter, a następnie wklej fragment kodu.

  7. Wykonaj jedną z następujących czynności:

    • Połącz ten wklejony fragment kodu z transformacją źródłową utworzoną wcześniej w grafie, wpisując source1 przed wklejonym kodem.

    • Alternatywnie możesz połączyć nowe przekształcenie w projektancie, wybierając strumień przychodzący z nowego węzła przekształcenia na wykresie.

      Zrzut ekranu przedstawiający

    Teraz przepływ danych usunie zduplikowane wiersze ze źródła przy użyciu transformacji agregującej, która grupuje wszystkie wiersze przy użyciu ogólnego skrótu we wszystkich wartościach kolumn.

  8. Dodaj fragment kodu do dzielenia danych na jeden strumień zawierający wiersze z wartościami null i inny strumień bez wartości null. Aby to zrobić:

  9. Wróć do biblioteki fragmentów kodu i tym razem skopiuj kod do sprawdzania wartości NULL.

    b. W projektancie przepływu danych ponownie wybierz pozycję Skrypt , a następnie wklej ten nowy kod przekształcania u dołu. Ta akcja łączy skrypt z poprzednią transformacją, umieszczając nazwę tej transformacji przed wklejonym fragmentem kodu.

    Wykres przepływu danych powinien teraz wyglądać podobnie do następującego:

    Zrzut ekranu przedstawiający wykres przepływu danych.

Utworzono przepływ danych roboczych z ogólnymi dedupingami i sprawdzaniem wartości null przez pobranie istniejących fragmentów kodu z biblioteki skryptów Przepływ danych i dodanie ich do istniejącego projektu.

  • Utwórz pozostałą część logiki przepływu danych przy użyciu przekształceń przepływów danych mapowania.