Samouczek lakehouse: pozyskiwanie danych do lakehouse
W tym samouczku pozyskasz bardziej wymiarowe i faktyczne tabele z wide world importers (WWI) do jeziora.
Wymagania wstępne
- Jeśli nie masz jeziora, musisz utworzyć jezioro.
Pozyskiwanie danych
W tej sekcji użyjesz działania Kopiowania danych potoku usługi Data Factory, aby pozyskać przykładowe dane z konta usługi Azure Storage do sekcji Pliki utworzonej wcześniej usługi Lakehouse.
Wybierz pozycję Obszary robocze w okienku nawigacji po lewej stronie, a następnie wybierz nowy obszar roboczy z menu Obszary robocze . Zostanie wyświetlony widok elementów obszaru roboczego.
W obszarze +Nowy element menu na wstążce obszaru roboczego wybierz pozycję Potok danych.
W oknie dialogowym Nowy potok określ nazwę IngestDataFromSourceToLakehouse i wybierz pozycję Utwórz. Zostanie utworzony i otwarty nowy potok fabryki danych.
W nowo utworzonym potoku fabryki danych wybierz pozycję Działanie potoku, aby dodać działanie do potoku, a następnie wybierz pozycję Kopiuj dane. Ta akcja dodaje działanie kopiowania danych do kanwy potoku.
Wybierz nowo dodane działanie kopiowania danych z kanwy. Właściwości działania są wyświetlane w okienku poniżej kanwy (może być konieczne rozwinięcie okienka w górę, przeciągając górną krawędź). Na karcie Ogólne w okienku właściwości wpisz Data Copy to Lakehouse w polu Nazwa.
Na karcie Źródło wybranego działania kopiowania danych wybierz pozycję Zewnętrzne jako Typ magazynu danych, a następnie wybierz pozycję + Nowy, aby utworzyć nowe połączenie ze źródłem danych.
Na potrzeby tego samouczka wszystkie przykładowe dane są dostępne w publicznym kontenerze usługi Azure Blob Storage. Połączysz się z tym kontenerem, aby skopiować z niego dane. Na pierwszym ekranie Nowe połączenie wybierz pozycję Azure Blob Storage , a następnie wybierz pozycję Kontynuuj.
Na ekranie Ustawienia połączenia wprowadź następujące szczegóły i wybierz pozycję Utwórz , aby utworzyć połączenie ze źródłem danych.
Właściwości Wartość Nazwa konta lub adres URL https://azuresynapsestorage.blob.core.windows.net/sampledata
Connection Utwórz nowe połączenie Nazwa połączenia wwisampledata Rodzaj uwierzytelniania Anonimowe Po utworzeniu nowego połączenia wróć do karty Źródło działania kopiowania danych, a nowo utworzone połączenie jest domyślnie zaznaczone. Przed przejściem do ustawień docelowych określ następujące właściwości.
Właściwości Wartość Typ magazynu danych Zewnętrzne Connection wwisampledata Typ ścieżki pliku Ścieżka pliku Ścieżka pliku Nazwa kontenera (pierwsze pole tekstowe): sampledata
Nazwa katalogu (drugie pole tekstowe): WideWorldImportersDW/parquetRekursywnie Zaznaczone File format Plik binarny Na karcie Miejsce docelowe wybranego działania kopiowania danych określ następujące właściwości:
Właściwości Wartość Typ magazynu danych Obszar roboczy Typ magazynu danych obszaru roboczego Lakehouse Lakehouse wwilakehouse Folder główny Pliki Ścieżka pliku Nazwa katalogu (pierwsze pole tekstowe): wwi-raw-data File format Plik binarny Skonfigurowano działanie kopiowania danych. Wybierz ikonę zapisywania na górnej wstążce (poniżej strony głównej), aby zapisać zmiany, a następnie wybierz pozycję Uruchom , aby wykonać potok i jego działanie. Możesz również zaplanować potoki, aby odświeżyć dane w zdefiniowanych odstępach czasu, aby spełnić wymagania biznesowe. W tym samouczku uruchomimy potok tylko raz, wybierając pozycję Uruchom.
Ta akcja wyzwala kopiowanie danych z bazowego źródła danych do określonego magazynu lakehouse i może potrwać do minuty. Możesz monitorować wykonywanie potoku i jego działania na karcie Dane wyjściowe , która jest wyświetlana po kliknięciu dowolnego miejsca na kanwie. Opcjonalnie możesz wybrać ikonę okularów, która jest wyświetlana po umieszczeniu wskaźnika myszy na nazwie, aby wyświetlić szczegóły transferu danych.
Po skopiowaniu danych przejdź do widoku elementów obszaru roboczego i wybierz nowy magazyn typu lakehouse (wwilakehouse), aby uruchomić widok Eksploratora .
Sprawdź, czy nowy folder wwi-raw-data pojawia się w widoku Eksploratora , a dane dla wszystkich tabel są tam kopiowane.
Aby załadować dane przyrostowe do magazynu lakehouse, zobacz Przyrostowe ładowanie danych z magazynu danych do magazynu lakehouse.