Поделиться через


Изучение данных в зеркальной базе данных с помощью записных книжек

Вы можете изучить данные, реплицированные из зеркальной базы данных, с помощью запросов Spark в записных книжках.

Записные книжки — это мощный элемент кода для разработки заданий Apache Spark и экспериментов машинного обучения с данными. Записные книжки в Fabric Lakehouse можно использовать для изучения зеркальных таблиц.

Необходимые компоненты

Создание ярлыка

Сначала необходимо создать ярлык из зеркальных таблиц в Lakehouse, а затем создать записные книжки с помощью запросов Spark в Lakehouse.

  1. На портале Fabric откройте Инжиниринг данных.

  2. Если у вас еще нет созданного Lakehouse, выберите Lakehouse и создайте новый Lakehouse , предоставив ему имя.

  3. Выберите "Получить данные " -> Создать ярлык".

  4. Выберите Microsoft OneLake.

  5. Все зеркальные базы данных можно просмотреть в рабочей области Fabric.

  6. Выберите зеркальную базу данных, которую вы хотите добавить в Lakehouse, в качестве ярлыка.

  7. Выберите нужные таблицы из зеркальной базы данных.

  8. Нажмите кнопку "Далее" и "Создать".

  9. В обозревателе теперь можно просмотреть выбранные данные таблицы в Lakehouse. Снимок экрана: портал Fabric, показывающий обозреватель Lakehouse, отображающий зеркальные таблицы и данные базы данных.

    Совет

    Вы можете добавить другие данные в Lakehouse напрямую или использовать такие сочетания клавиш, как S3, ADLS 2-го поколения. Вы можете перейти к конечной точке аналитики SQL Lakehouse и объединить данные по всем этим источникам с зеркальными данными.

  10. Чтобы изучить эти данные в Spark, выберите точки рядом ... с любой таблицей. Выберите "Создать записную книжку" или "Существующая записная книжка", чтобы начать анализ. Снимок экрана: портал Fabric, показывающий контекстное меню, чтобы открыть зеркальную таблицу базы данных в записной книжке.

  11. Записная книжка автоматически открывается и загружает кадр данных с SELECT ... LIMIT 1000 помощью запроса Spark SQL.

    • Для полной загрузки новых записных книжек может потребоваться до двух минут. Эту задержку можно избежать с помощью существующей записной книжки с активным сеансом. Снимок экрана: портал Fabric с данными из зеркальной таблицы базы данных в новой записной книжке с запросом Spark SQL.