Поделиться через


Подключение к ADLS и преобразование данных с помощью Azure Databricks

В руководстве описаны следующие действия:

  • Создайте таблицу Delta в учетной записи Azure Data Lake Storage (ADLS) 2-го поколения с помощью Azure Databricks.

  • Создайте ярлык OneLake для таблицы Delta в ADLS.

  • Используйте Power BI для анализа данных с помощью ярлыка ADLS.

Необходимые компоненты

Перед началом работы необходимо:

  • Рабочая область с элементом Lakehouse

  • Рабочая область Azure Databricks

  • Учетная запись ADLS 2-го поколения для хранения таблиц Delta

Создание таблицы Delta, создание ярлыка и анализ данных

  1. Используя записную книжку Azure Databricks, создайте таблицу Delta в учетной записи ADLS 2-го поколения.

     # Replace the path below to refer to your sample parquet data with this syntax "abfss://<storage name>@<container name>.dfs.core.windows.net/<filepath>"
    
     # Read Parquet files from an ADLS account
     df = spark.read.format('Parquet').load("abfss://datasetsv1@olsdemo.dfs.core.windows.net/demo/full/dimension_city/")
    
     # Write Delta tables to ADLS account
     df.write.mode("overwrite").format("delta").save("abfss://datasetsv1@olsdemo.dfs.core.windows.net/demo/adb_dim_city_delta/")
    
  2. В lakehouse выберите многоточие (...) рядом с таблицами , а затем нажмите кнопку "Создать ярлык".

    Снимок экрана: расположение нового ярлыка в таблицах.

  3. На экране "Создать ярлык" выберите плитку Azure Data Lake Storage 2-го поколения.

    Снимок экрана: параметры плитки на экране

  4. Укажите сведения о подключении для ярлыка и нажмите кнопку "Далее".

    Снимок экрана, показывающий, где ввести параметры подключения для нового ярлыка.

  5. Укажите сведения о ярлыке. Укажите сведения о ярлыке и вложенный путь, а затем нажмите кнопку "Создать". Вложенный путь должен указывать на каталог, в котором находится таблица Delta.

    Снимок экрана: место ввода новых сведений о ярлыке.

  6. Ярлык отображается как таблица Delta в таблицах.

    Снимок экрана: расположение только что созданного ярлыка ADLS.

  7. Теперь эти данные можно запрашивать непосредственно из записной книжки.

    df = spark.sql("SELECT * FROM lakehouse1.adls_shortcut_adb_dim_city_delta LIMIT 1000")
    display(df)
    
  8. Чтобы получить доступ к этой таблице Delta и проанализировать ее с помощью Power BI, выберите новую семантику Power BI.

    Снимок экрана: создание новой семантической модели Power BI.

  9. Выберите ярлык и нажмите кнопку "Подтвердить".

    Снимок экрана: настройка новой семантической модели.

  10. Когда данные публикуются, нажмите кнопку "Начать с нуля".

    Снимок экрана: процесс настройки набора данных.

  11. В интерфейсе разработки отчетов ярлыки отображаются в виде таблицы вместе со всеми его атрибутами.

    Снимок экрана: атрибуты интерфейса разработки и таблицы.

  12. Чтобы создать отчет Power BI, перетащите атрибуты в область слева.

    Снимок экрана: запрос данных с помощью отчета Power BI.