Udostępnij za pośrednictwem


Przekształcanie danych przy użyciu przepływów danych mapowania

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Jeśli jesteś nowym użytkownikiem usługi Azure Data Factory, zobacz Wprowadzenie do usługi Azure Data Factory.

W tym samouczku użyjesz interfejsu użytkownika usługi Azure Data Factory (UX), aby utworzyć potok, który kopiuje i przekształca dane ze źródła usługi Azure Data Lake Storage (ADLS) Gen2 do ujścia usługi ADLS Gen2 przy użyciu przepływu danych mapowania. Wzorzec konfiguracji w tym samouczku można rozszerzyć podczas przekształcania danych przy użyciu przepływu mapowania danych

Uwaga

Ten samouczek jest przeznaczony do mapowania przepływów danych ogólnie. Przepływy danych są dostępne zarówno w usługach Azure Data Factory, jak i Synapse Pipelines. Jeśli dopiero zaczynasz korzystać z przepływów danych w usłudze Azure Synapse Pipelines, postępuj zgodnie z instrukcjami Przepływ danych przy użyciu usługi Azure Synapse Pipelines

W tym samouczku wykonasz następujące czynności:

  • Tworzenie fabryki danych.
  • Utwórz potok z działaniem Przepływ danych.
  • Utwórz przepływ danych mapowania z czterema przekształceniami.
  • Testowe uruchamianie potoku.
  • Monitorowanie działania Przepływ danych

Wymagania wstępne

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure.
  • Konto usługi Azure Storage. Magazyn usługi ADLS jest używany jako magazyn danych źródłowych i ujścia . Jeśli nie masz konta magazynu, utwórz je, wykonując czynności przedstawione w artykule Tworzenie konta magazynu platformy Azure.

Plik, który przekształcamy w tym samouczku, jest MoviesDB.csv, który można znaleźć tutaj. Aby pobrać plik z usługi GitHub, skopiuj zawartość do wybranego edytora tekstów, aby zapisać lokalnie jako plik .csv. Aby przekazać plik na konto magazynu, zobacz Przekazywanie obiektów blob za pomocą witryny Azure Portal. Przykłady będą odwoływać się do kontenera o nazwie "sample-data".

Tworzenie fabryki danych

W tym kroku utworzysz fabrykę danych i otworzysz środowisko użytkownika usługi Data Factory, aby utworzyć potok w fabryce danych.

  1. Otwórz przeglądarkę Microsoft Edge lub Google Chrome. Obecnie interfejs użytkownika usługi Data Factory jest obsługiwany tylko w przeglądarkach internetowych Przeglądarki Microsoft Edge i Google Chrome.

  2. W menu po lewej stronie wybierz pozycję Utwórz zasób>Integration>Data Factory:

    Wybór usługi Data Factory w

  3. Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.

    Nazwa fabryki danych platformy Azure musi być globalnie unikatowa. Jeśli zostanie wyświetlony komunikat o błędzie dotyczącym wartości nazwy, wprowadź inną nazwę dla fabryki danych. (na przykład twojanazwaADFTutorialDataFactory). Reguły nazewnictwa dla artefaktów usługi Data Factory można znaleźć w artykule Data Factory — reguły nazewnictwa.

    Nowy komunikat o błędzie fabryki danych dla zduplikowanej nazwy.

  4. Wybierz subskrypcję platformy Azure, w której chcesz utworzyć fabrykę danych.

  5. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    a. Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.

    b. Wybierz pozycję Utwórz nową, a następnie wprowadź nazwę grupy zasobów.

    Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).

  6. W obszarze Wersja wybierz pozycję V2.

  7. W obszarze Lokalizacja wybierz lokalizację fabryki danych. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje. Magazyny danych (na przykład Azure Storage i SQL Database) i obliczenia (na przykład Usługa Azure HDInsight) używane przez fabrykę danych mogą znajdować się w innych regionach.

  8. Wybierz pozycję Utwórz.

  9. Po zakończeniu tworzenia zostanie wyświetlone powiadomienie w Centrum powiadomień. Wybierz pozycję Przejdź do zasobu , aby przejść do strony Fabryka danych.

  10. Wybierz pozycję Tworzenie i monitorowanie, aby uruchomić interfejs użytkownika usługi Data Factory na osobnej karcie.

Tworzenie potoku z działaniem Przepływ danych

W tym kroku utworzysz potok zawierający działanie Przepływ danych.

  1. Na stronie głównej usługi Azure Data Factory wybierz pozycję Orkiestruj.

    Zrzut ekranu przedstawiający stronę główną usługi ADF.

  2. Na karcie Ogólne potoku wprowadź ciąg TransformFilms w polu Nazwa potoku.

  3. W okienku Działania rozwiń akordeon Przenieś i Przekształć . Przeciągnij i upuść działanie Przepływ danych z okienka do kanwy potoku.

    Zrzut ekranu przedstawiający kanwę potoku, na której można usunąć działanie Przepływ danych.

  4. W oknie podręcznym Dodawanie Przepływ danych wybierz pozycję Utwórz nowy Przepływ danych, a następnie nadaj przepływowi danych nazwę TransformFilms. Po zakończeniu kliknij przycisk Zakończ.

    Zrzut ekranu przedstawiający miejsce nadawania nazwy przepływowi danych podczas tworzenia nowego przepływu danych.

  5. Na górnym pasku kanwy potoku przesuń suwak debugowania Przepływ danych. Tryb debugowania umożliwia interaktywne testowanie logiki transformacji względem dynamicznego klastra Spark. Przepływ danych klastry zajmują od 5 do 7 minut, a użytkownicy powinni najpierw włączyć debugowanie, jeśli planują wykonać Przepływ danych programowania. Aby uzyskać więcej informacji, zobacz Tryb debugowania.

    Działanie Przepływ danych

Tworzenie logiki przekształcania na kanwie przepływu danych

Po utworzeniu Przepływ danych nastąpi automatyczne wysłanie do kanwy przepływu danych. Jeśli nie nastąpi przekierowanie do kanwy przepływu danych, w panelu poniżej kanwy przejdź do pozycji Ustawienia i wybierz pozycję Otwórz, znajdującą się obok pola przepływu danych. Spowoduje to otwarcie kanwy przepływu danych.

Zrzut ekranu przedstawiający sposób otwierania edytora przepływu danych z edytora potoków.

W tym kroku utworzysz przepływ danych, który pobiera moviesDB.csv w magazynie usługi ADLS i agreguje średnią ocenę komedii z 1910 do 2000 roku. Następnie zapiszesz ten plik z powrotem do magazynu usługi ADLS.

  1. Na kanwie przepływu danych dodaj źródło, klikając pole Dodaj źródło .

    Zrzut ekranu przedstawiający pole Dodaj źródło.

  2. Nazwij źródłową bazę danych MoviesDB. Kliknij pozycję Nowy , aby utworzyć nowy źródłowy zestaw danych.

    Zrzut ekranu przedstawiający miejsce wybrania pozycji Nowy po nadaniu nazwy źródła.

  3. Wybierz pozycję Azure Data Lake Storage Gen2. Kliknij przycisk Continue (Kontynuuj).

    Zrzut ekranu pokazujący, gdzie znajduje się kafelek usługi Azure Data Lake Storage Gen2.

  4. Wybierz pozycję RozdzielanyTekst. Kliknij przycisk Continue (Kontynuuj).

    Zrzut ekranu przedstawiający kafelek DelimitedText.

  5. Nadaj zestawowi danych nazwę MoviesDB. Z listy rozwijanej połączona usługa wybierz pozycję Nowy.

    Zrzut ekranu przedstawiający listę rozwijaną Połączona usługa.

  6. Na ekranie tworzenia połączonej usługi nadaj usłudze ADLS Gen2 nazwę połączonej usłudze ADLSGen2 i określ metodę uwierzytelniania. Następnie wprowadź poświadczenia połączenia. W tym samouczku używamy klucza konta do nawiązywania połączenia z naszym kontem magazynu. Możesz kliknąć pozycję Testuj połączenie , aby sprawdzić, czy poświadczenia zostały wprowadzone poprawnie. Kliknij przycisk Utwórz po zakończeniu.

    Połączona usługa

  7. Po powrocie do ekranu tworzenia zestawu danych wprowadź miejsce, w którym znajduje się plik w polu Ścieżka pliku. W tym samouczku plik moviesDB.csv znajduje się w przykładowych danych kontenera. Ponieważ plik ma nagłówki, zaznacz pozycję Pierwszy wiersz jako nagłówek. Wybierz pozycję Z połączenia/magazynu , aby zaimportować schemat nagłówka bezpośrednio z pliku w magazynie. Kliknij przycisk OK po zakończeniu.

    Zestawy danych

  8. Jeśli klaster debugowania został uruchomiony, przejdź do karty Podgląd danych przekształcenia źródła i kliknij przycisk Odśwież , aby uzyskać migawkę danych. Możesz użyć podglądu danych, aby sprawdzić, czy transformacja jest poprawnie skonfigurowana.

    Zrzut ekranu pokazujący, gdzie można wyświetlić podgląd danych, aby sprawdzić, czy transformacja została prawidłowo skonfigurowana.

  9. Obok węzła źródłowego na kanwie przepływu danych kliknij ikonę znaku plus, aby dodać nową transformację. Pierwszą dodaną transformacją jest filtr.

    kanwa Przepływ danych

  10. Nadaj transformacji filtrowi nazwę FilterYears. Kliknij pole wyrażenia obok pozycji Filtruj, aby otworzyć konstruktora wyrażeń. W tym miejscu określisz warunek filtrowania.

    Zrzut ekranu przedstawiający pole Filtrowanie w wyrażeniu.

  11. Konstruktor wyrażeń przepływu danych umożliwia interaktywne tworzenie wyrażeń używanych w różnych przekształceniach. Wyrażenia mogą zawierać wbudowane funkcje, kolumny ze schematu wejściowego i parametry zdefiniowane przez użytkownika. Aby uzyskać więcej informacji na temat tworzenia wyrażeń, zobacz Przepływ danych konstruktora wyrażeń.

    W tym samouczku chcesz filtrować filmy komedii gatunkowej, które pojawiły się między latami 1910 i 2000. Ponieważ rok jest obecnie ciągiem, musisz przekonwertować go na liczbę całkowitą przy użyciu toInteger() funkcji . Użyj operatorów większej lub równej (>=) i mniejszej lub równej operatorom (<=), aby porównać wartości roku literału 1910 i 2000. Połącz te wyrażenia razem z operatorem i (&&). Wyrażenie jest zwracane jako:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Aby dowiedzieć się, które filmy są komediami, możesz użyć rlike() funkcji , aby znaleźć wzorzec "Komedia" w gatunkach kolumn. Ujmij wyrażenie z rlike porównaniem roku, aby uzyskać:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Jeśli masz aktywny klaster debugowania, możesz zweryfikować logikę, klikając pozycję Odśwież , aby wyświetlić dane wyjściowe wyrażenia w porównaniu z użytymi danymi wejściowymi. Istnieje więcej niż jedna prawidłowa odpowiedź na temat tego, jak można osiągnąć tę logikę przy użyciu języka wyrażeń przepływu danych.

    Filtr

    Po zakończeniu pracy z wyrażeniem kliknij pozycję Zapisz i zakończ .

  12. Pobierz podgląd danych, aby sprawdzić, czy filtr działa poprawnie.

    Zrzut ekranu przedstawiający pobrany podgląd danych.

  13. Kolejną transformacją , którą dodasz, jest przekształcenie agregacji w obszarze Modyfikator schematu.

    Zrzut ekranu przedstawiający modyfikator schematu agregacji.

  14. Nadaj agregacji nazwę AggregateComedyRatings. Na karcie Grupuj według wybierz pozycję rok z listy rozwijanej, aby pogrupować agregacje według roku, w ramach których film został wyjęły.

    Zrzut ekranu przedstawiający opcję rok na karcie Grupuj według w obszarze Ustawienia agregacji.

  15. Przejdź do karty Agregacje . W polu tekstowym po lewej stronie nadaj kolumnie agregacji nazwę AverageComedyRating. Kliknij odpowiednie pole wyrażenia, aby wprowadzić wyrażenie agregacji za pomocą konstruktora wyrażeń.

    Zrzut ekranu przedstawiający opcję rok na karcie Agregacje w obszarze Ustawienia agregacji.

  16. Aby uzyskać średnią kolumny Ocena, użyj avg() funkcji agregującej. Ponieważ ocena jest ciągiem i avg() przyjmuje dane wejściowe liczbowe, musimy przekonwertować wartość na liczbę za pośrednictwem toInteger() funkcji. To wyrażenie wygląda następująco:

    avg(toInteger(Rating))

    Po zakończeniu kliknij przycisk Zapisz i zakończ .

    Zrzut ekranu przedstawiający zapisane wyrażenie.

  17. Przejdź do karty Podgląd danych, aby wyświetlić dane wyjściowe przekształcenia. Zwróć uwagę, że istnieją tylko dwie kolumny: rok i AverageComedyRating.

    Agregacja

  18. Następnie chcesz dodać przekształcenie ujścia w obszarze Miejsce docelowe.

    Zrzut ekranu pokazujący, gdzie dodać przekształcenie ujścia w obszarze Miejsce docelowe.

  19. Nazwij ujście ujścia. Kliknij pozycję Nowy , aby utworzyć zestaw danych ujścia.

    Zrzut ekranu przedstawiający miejsce, w którym można nazwać ujście i utworzyć nowy zestaw danych ujścia.

  20. Wybierz pozycję Azure Data Lake Storage Gen2. Kliknij przycisk Continue (Kontynuuj).

    Zrzut ekranu przedstawiający kafelek usługi Azure Data Lake Storage Gen2, który można wybrać.

  21. Wybierz pozycję RozdzielanyTekst. Kliknij przycisk Continue (Kontynuuj).

    Zestaw danych

  22. Nadaj zestawowi danych ujście nazwę MoviesSink. W przypadku połączonej usługi wybierz połączoną usługę ADLS Gen2 utworzoną w kroku 6. Wprowadź folder wyjściowy do zapisania danych. W tym samouczku piszemy do folderu "output" w kontenerze "sample-data". Folder nie musi istnieć wcześniej i można go dynamicznie tworzyć. Ustaw wartość Pierwszy wiersz jako nagłówek jako true, a następnie wybierz pozycję Brak w polu Importuj schemat. Kliknij przycisk Zakończ.

    Ujście

Teraz zakończono tworzenie przepływu danych. Możesz go uruchomić w potoku.

Uruchamianie i monitorowanie Przepływ danych

Potok można debugować przed jego opublikowaniem. W tym kroku wyzwolisz przebieg debugowania potoku przepływu danych. Chociaż podgląd danych nie zapisuje danych, uruchomienie debugowania spowoduje zapisanie danych w miejscu docelowym ujścia.

  1. Przejdź do kanwy potoku. Kliknij pozycję Debuguj , aby wyzwolić przebieg debugowania.

    Zrzut ekranu przedstawiający kanwę potoku z wyróżnionym poleceniem Debuguj.

  2. Debugowanie potoku Przepływ danych działań używa aktywnego klastra debugowania, ale inicjowanie nadal trwa co najmniej minutę. Postęp można śledzić za pomocą karty Dane wyjściowe . Po pomyślnym zakończeniu przebiegu kliknij ikonę okularów, aby otworzyć okienko monitorowania.

    Potok

  3. W okienku monitorowania można zobaczyć liczbę wierszy i czasu spędzonego w każdym kroku transformacji.

    Zrzut ekranu przedstawiający okienko monitorowania, w którym można zobaczyć liczbę wierszy i czasu spędzonego w każdym kroku transformacji.

  4. Kliknij przekształcenie, aby uzyskać szczegółowe informacje o kolumnach i partycjonowaniu danych.

    Monitorowanie

Jeśli wykonano czynności opisane w tym samouczku poprawnie, należy zapisać 83 wiersze i 2 kolumny w folderze ujścia. Możesz sprawdzić, czy dane są poprawne, sprawdzając magazyn obiektów blob.

Potok w tym samouczku uruchamia przepływ danych, który agreguje średnią ocenę komedii z 1910 do 2000 i zapisuje dane w usłudze ADLS. W tym samouczku omówiono:

  • Tworzenie fabryki danych.
  • Utwórz potok z działaniem Przepływ danych.
  • Utwórz przepływ danych mapowania z czterema przekształceniami.
  • Testowe uruchamianie potoku.
  • Monitorowanie działania Przepływ danych

Dowiedz się więcej o języku wyrażeń przepływu danych.