Udostępnij za pośrednictwem


Samouczek lakehouse: pozyskiwanie danych do lakehouse

W tym samouczku pozyskasz bardziej wymiarowe i faktyczne tabele z wide world importers (WWI) do jeziora.

Wymagania wstępne

  • Jeśli nie masz jeziora, musisz utworzyć jezioro.

Pozyskiwanie danych

W tej sekcji użyjesz działania Kopiowania danych potoku usługi Data Factory, aby pozyskać przykładowe dane z konta usługi Azure Storage do sekcji Pliki utworzonej wcześniej usługi Lakehouse.

  1. Wybierz pozycję Obszary robocze w okienku nawigacji po lewej stronie, a następnie wybierz nowy obszar roboczy z menu Obszary robocze . Zostanie wyświetlony widok elementów obszaru roboczego.

  2. W obszarze +Nowy element menu na wstążce obszaru roboczego wybierz pozycję Potok danych.

    Zrzut ekranu przedstawiający sposób tworzenia nowego potoku danych.

  3. W oknie dialogowym Nowy potok określ nazwę IngestDataFromSourceToLakehouse i wybierz pozycję Utwórz. Zostanie utworzony i otwarty nowy potok fabryki danych.

  4. W nowo utworzonym potoku fabryki danych wybierz pozycję Działanie potoku, aby dodać działanie do potoku, a następnie wybierz pozycję Kopiuj dane. Ta akcja dodaje działanie kopiowania danych do kanwy potoku.

    Zrzut ekranu przedstawiający, gdzie wybrać pozycję Działanie potoku i Skopiować dane.

  5. Wybierz nowo dodane działanie kopiowania danych z kanwy. Właściwości działania są wyświetlane w okienku poniżej kanwy (może być konieczne rozwinięcie okienka w górę, przeciągając górną krawędź). Na karcie Ogólne w okienku właściwości wpisz Data Copy to Lakehouse w polu Nazwa.

    Zrzut ekranu przedstawiający miejsce dodawania nazwy działania kopiowania na karcie Ogólne.

  6. Na karcie Źródło wybranego działania kopiowania danych wybierz pozycję Zewnętrzne jako Typ magazynu danych, a następnie wybierz pozycję + Nowy, aby utworzyć nowe połączenie ze źródłem danych.

    Zrzut ekranu przedstawiający, gdzie wybrać pozycję Zewnętrzne i + Nowe na karcie Źródło.

  7. Na potrzeby tego samouczka wszystkie przykładowe dane są dostępne w publicznym kontenerze usługi Azure Blob Storage. Połączysz się z tym kontenerem, aby skopiować z niego dane. Na pierwszym ekranie Nowe połączenie wybierz pozycję Azure Blob Storage , a następnie wybierz pozycję Kontynuuj.

    Zrzut ekranu przedstawiający kreatora Nowe połączenie z lokalizacją wybierania usługi Azure Blob Storage.

  8. Na ekranie Ustawienia połączenia wprowadź następujące szczegóły i wybierz pozycję Utwórz , aby utworzyć połączenie ze źródłem danych.

    Właściwości Wartość
    Nazwa konta lub adres URL https://azuresynapsestorage.blob.core.windows.net/sampledata
    Connection Utwórz nowe połączenie
    Nazwa połączenia wwisampledata
    Rodzaj uwierzytelniania Anonimowe

    Zrzut ekranu przedstawiający ekran Ustawienia połączenia pokazujący, gdzie wprowadzić szczegóły, a następnie wybierz pozycję Utwórz.

  9. Po utworzeniu nowego połączenia wróć do karty Źródło działania kopiowania danych, a nowo utworzone połączenie jest domyślnie zaznaczone. Przed przejściem do ustawień docelowych określ następujące właściwości.

    Właściwości Wartość
    Typ magazynu danych Zewnętrzne
    Connection wwisampledata
    Typ ścieżki pliku Ścieżka pliku
    Ścieżka pliku Nazwa kontenera (pierwsze pole tekstowe): sampledata
    Nazwa katalogu (drugie pole tekstowe): WideWorldImportersDW/parquet
    Rekursywnie Zaznaczone
    File format Plik binarny

    Zrzut ekranu przedstawiający kartę źródłową pokazującą, gdzie wprowadzić szczegółowe informacje.

  10. Na karcie Miejsce docelowe wybranego działania kopiowania danych określ następujące właściwości:

    Właściwości Wartość
    Typ magazynu danych Obszar roboczy
    Typ magazynu danych obszaru roboczego Lakehouse
    Lakehouse wwilakehouse
    Folder główny Pliki
    Ścieżka pliku Nazwa katalogu (pierwsze pole tekstowe): wwi-raw-data
    File format Plik binarny

    Zrzut ekranu przedstawiający kartę Miejsce docelowe, na której należy wprowadzić określone szczegóły.

  11. Skonfigurowano działanie kopiowania danych. Wybierz ikonę zapisywania na górnej wstążce (poniżej strony głównej), aby zapisać zmiany, a następnie wybierz pozycję Uruchom , aby wykonać potok i jego działanie. Możesz również zaplanować potoki, aby odświeżyć dane w zdefiniowanych odstępach czasu, aby spełnić wymagania biznesowe. W tym samouczku uruchomimy potok tylko raz, wybierając pozycję Uruchom.

    Ta akcja wyzwala kopiowanie danych z bazowego źródła danych do określonego magazynu lakehouse i może potrwać do minuty. Możesz monitorować wykonywanie potoku i jego działania na karcie Dane wyjściowe , która jest wyświetlana po kliknięciu dowolnego miejsca na kanwie. Opcjonalnie możesz wybrać ikonę okularów, która jest wyświetlana po umieszczeniu wskaźnika myszy na nazwie, aby wyświetlić szczegóły transferu danych.

    Zrzut ekranu przedstawiający, gdzie wybrać pozycję Zapisz i uruchom oraz gdzie znaleźć szczegóły przebiegu i ikonę okularów na karcie Dane wyjściowe.

  12. Po skopiowaniu danych przejdź do widoku elementów obszaru roboczego i wybierz nowy magazyn typu lakehouse (wwilakehouse), aby uruchomić widok Eksploratora .

    Zrzut ekranu przedstawiający miejsce wybrania usługi Lakehouse w celu uruchomienia widoku Eksploratora.

  13. Sprawdź, czy nowy folder wwi-raw-data pojawia się w widoku Eksploratora , a dane dla wszystkich tabel są tam kopiowane.

    Zrzut ekranu przedstawiający skopiowanie danych źródłowych do eksploratora usługi Lakehouse.

Aby załadować dane przyrostowe do magazynu lakehouse, zobacz Przyrostowe ładowanie danych z magazynu danych do magazynu lakehouse.

Następny krok