Udostępnij za pośrednictwem


Pozyskiwanie danych do usługi OneLake i analizowanie za pomocą usługi Azure Databricks

W tym przewodniku wykonasz następujące elementy:

  • Utwórz potok w obszarze roboczym i pozyskuj dane do usługi OneLake w formacie delta.

  • Odczytywanie i modyfikowanie tabeli delty w usłudze OneLake za pomocą usługi Azure Databricks.

Wymagania wstępne

Przed rozpoczęciem musisz mieć następujące elementy:

  • Obszar roboczy z elementem lakehouse.

  • Obszar roboczy usługi Azure Databricks w warstwie Premium. Tylko obszary robocze usługi Azure Databricks w warstwie Premium obsługują przekazywanie poświadczeń firmy Microsoft. Podczas tworzenia klastra włącz przekazywanie poświadczeń usługi Azure Data Lake Storage w obszarze Opcje zaawansowane.

  • Przykładowy zestaw danych.

Pozyskiwanie danych i modyfikowanie tabeli delty

  1. Przejdź do usługi Lakehouse w usługa Power BI i wybierz pozycję Pobierz dane, a następnie wybierz pozycję Nowy potok danych.

    Zrzut ekranu przedstawiający sposób przechodzenia do nowej opcji potoku danych z poziomu interfejsu użytkownika.

  2. W wierszu polecenia Nowy potok wprowadź nazwę nowego potoku, a następnie wybierz pozycję Utwórz.

  3. W tym ćwiczeniu wybierz przykładowe dane NYC Taxi — Green jako źródło danych, a następnie wybierz pozycję Dalej.

    Zrzut ekranu przedstawiający sposób wybierania przykładowego modelu semantycznego NYC.

  4. Na ekranie podglądu wybierz pozycję Dalej.

  5. W przypadku miejsca docelowego danych wybierz nazwę magazynu lakehouse, którego chcesz użyć do przechowywania danych tabeli delty OneLake. Możesz wybrać istniejący lakehouse lub utworzyć nowy.

    Zrzut ekranu przedstawiający sposób wybierania miejsca docelowego lakehouse.

  6. Wybierz miejsce przechowywania danych wyjściowych. Wybierz pozycję Tabele jako folder główny i wprowadź ciąg "nycsample" jako nazwę tabeli.

  7. Na ekranie Przeglądanie i zapisywanie wybierz pozycję Rozpocznij transfer danych natychmiast , a następnie wybierz pozycję Zapisz i uruchom.

    Zrzut ekranu przedstawiający sposób wprowadzania nazwy tabeli.

  8. Po zakończeniu zadania przejdź do usługi Lakehouse i wyświetl tabelę delty wymienioną w folderze /Tables.

  9. Kliknij prawym przyciskiem myszy nazwę utworzonej tabeli, wybierz pozycję Właściwości i skopiuj ścieżkę systemu plików obiektów blob platformy Azure (ABFS).

  10. Otwórz notes usługi Azure Databricks. Przeczytaj tabelę delta w usłudze OneLake.

    olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
    df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
    df.show(5)
    
  11. Zaktualizuj dane tabeli delty, zmieniając wartość pola.

    %sql
    update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;