Udostępnij za pośrednictwem


Moduł 1. Tworzenie potoku za pomocą usługi Data Factory

Ten moduł trwa 10 minut, pozyskiwanie danych pierwotnych z magazynu źródłowego do tabeli Bronze usługi Data Lakehouse przy użyciu działanie Kopiuj w potoku.

Ogólne kroki w module 1 są następujące:

  1. Tworzenie potoku danych.
  2. Użyj działania kopiowania w potoku, aby załadować przykładowe dane do usługi Data Lakehouse.

Tworzenie potoku danych

  1. Wymagane jest konto dzierżawy usługi Microsoft Fabric z aktywną subskrypcją. Utwórz bezpłatne konto.

  2. Upewnij się, że masz obszar roboczy z włączoną usługą Microsoft Fabric: tworzenie obszaru roboczego.

  3. Zaloguj się w Power BI.

  4. Wybierz domyślną ikonę usługi Power BI w lewym dolnym rogu ekranu i przejdź do środowiska usługi Data Factory .

    Screenshot showing the selection of the Data Factory experience.

  5. Wybierz pozycję Potok danych i podaj nazwę potoku. Następnie wybierz Utwórz.

    Screenshot of the Data Factory start page with the button to create a new data pipeline selected.

    Screenshot showing the dialog to give the new pipeline a name.

Ładowanie przykładowych danych do usługi Data Lakehouse przy użyciu działanie Kopiuj w potoku

Krok 1. Konfigurowanie działania kopiowania za pomocą asystenta kopiowania.

Wybierz pozycję Kopiuj dane , aby otworzyć narzędzie asystenta kopiowania.

Screenshot showing the selection of the Copy data activity from the new pipeline start page.

Krok 2. Konfigurowanie ustawień w asystencie kopiowania.

  1. Zostanie wyświetlone okno dialogowe Kopiowanie danych z wyróżnionym pierwszym krokiem Wybierz źródło danych. W razie potrzeby przewiń w dół do sekcji Źródła danych i wybierz typ źródła danych usługi Azure Blob Storage . Następnie kliknij przycisk Dalej.

    Screenshot showing the selection of the Azure Blob Storage data source type in the copy assistant on the Choose data source tab.

  2. W następnym kroku wybierz pozycję Utwórz nowe połączenie , a następnie podaj adres URL magazynu obiektów blob hostujących przykładowe dane podane w tym samouczku pod adresem https://nyctaxisample.blob.core.windows.net/sample. Rodzaj uwierzytelniania to Anonimowe. Po podaniu adresu URL wybierz pozycję Dalej .

    Screenshot showing the creation of a new Azure Blob Storage connection with the URL for the sample data in the tutorial.

  3. Zostanie wyświetlony krok Połączenie źródła danych i początkowo zostanie wyświetlony błąd Nie można wyświetlić listy plików, ponieważ uprawnienia zostały przyznane tylko do folderu przykładowego w magazynie obiektów blob. Podaj nazwę folderu, przykład i wybierz pozycję Ponów próbę.

    Screenshot showing the Unable to list files error with the folder name Sample provided.

    Uwaga

    W folderze magazynu obiektów blob uwzględniana jest wielkość liter i powinna znajdować się we wszystkich małych literach.

  4. Zostanie wyświetlona przeglądarka usługi Blob Storage. Wybierz plik NYC-Taxi-Green-2015-01.parquet i poczekaj na wyświetlenie podglądu danych. Następnie kliknij przycisk Dalej.

    Screenshot showing the preview data for the NYC-Taxi-Green-2015-01.parquet file.

  5. W kroku Wybieranie miejsca docelowego danych asystenta kopiowania wybierz pozycję Lakehouse, a następnie pozycję Dalej.

    Screenshot showing the selection of the Lakehouse destination on the Choose data destination tab of the Copy data assistant.

  6. Wybierz pozycję Utwórz nową usługę Lakehouse na wyświetlonej stronie konfiguracji miejsca docelowego danych i wprowadź nazwę nowej usługi Lakehouse. Następnie ponownie wybierz pozycję Dalej .

    Screenshot showing the data destination configuration page of the Copy assistant, choosing the Create new Lakehouse option and providing a Lakehouse name.

  7. Teraz skonfiguruj szczegóły miejsca docelowego usługi Lakehouse na stronie Wybierz i zamapuj na ścieżkę folderu lub tabelę. Wybierz pozycję Tabele dla folderu głównego, podaj nazwę tabeli i wybierz akcję Zastąp . Nie zaznaczaj pola wyboru Włącz partycję, które jest wyświetlane po wybraniu akcji Zastąp tabelę.

    Screenshot showing the Connect to data destination tab of the Copy data assistant, on the Select and map to folder path or table step.

  8. Na koniec na stronie Przeglądanie i zapisywanie asystenta kopiowania danych przejrzyj konfigurację. W tym samouczku usuń zaznaczenie pola wyboru Rozpocznij transfer danych natychmiast , ponieważ uruchamiamy działanie ręcznie w następnym kroku. Następnie wybierz opcję OK.

    Screenshot showing the Copy data assistant on the Review + save page.

Krok 3. Uruchamianie i wyświetlanie wyników działanie Kopiuj.

  1. Wybierz kartę Uruchom w edytorze potoków. Następnie wybierz przycisk Uruchom, a następnie pozycję Zapisz i uruchom w wierszu polecenia, aby uruchomić działanie Kopiuj.

    Screenshot showing the pipeline Run tab with the Run button highlighted.

    Screenshot showing the Save and run dialog with the Save and run button highlighted.

  2. Możesz monitorować przebieg i sprawdzać wyniki na karcie Dane wyjściowe poniżej kanwy potoku. Wybierz przycisk Szczegóły przebiegu (ikona "okularów", która jest wyświetlana po umieszczeniu wskaźnika myszy na uruchomionym przebiegu potoku), aby wyświetlić szczegóły przebiegu.

    Screenshot showing the run details button in the pipeline Output tab.

  3. Szczegóły przebiegu pokazują 1508 501 wierszy odczytanych i zapisanych.

    Screenshot of the Copy data details for the pipeline run.

  4. Rozwiń sekcję Podział czasu trwania, aby zobaczyć czas trwania każdego etapu działanie Kopiuj. Po przejrzeniu szczegółów kopiowania wybierz pozycję Zamknij.

    Screenshot showing the duration breakdown of the Copy activity run.

W tym pierwszym module do naszego kompleksowego samouczka dotyczącego pierwszej integracji danych przy użyciu usługi Data Factory w usłudze Microsoft Fabric przedstawiono sposób wykonywania następujących czynności:

  • Tworzenie potoku danych.
  • Dodaj działanie Kopiuj do potoku.
  • Użyj przykładowych danych i utwórz usługę Data Lakehouse, aby przechowywać dane w nowej tabeli.
  • Uruchom potok i wyświetl jego szczegóły i podział czasu trwania.

Przejdź teraz do następnej sekcji, aby utworzyć przepływ danych.