Поделиться через


Руководство. Использование записной книжки с Apache Spark для запроса к базе данных KQL

Записные книжки — это доступные для чтения документы, содержащие описания анализа данных и результаты и исполняемые документы, которые можно запускать для выполнения анализа данных. Из этой статьи вы узнаете, как использовать записную книжку Microsoft Fabric для чтения и записи данных в базу данных KQL с помощью Apache Spark. В этом руководстве используются предварительно созданные наборы данных и записные книжки как в аналитике в режиме реального времени, так и в средах Инжиниринг данных в Microsoft Fabric. Дополнительные сведения о записных книжках см. в статье "Использование записных книжек Microsoft Fabric".

В частности, вы узнаете, как выполнять следующие задачи:

  • Создание базы данных KQL
  • Импорт записной книжки
  • Запись данных в базу данных KQL с помощью Apache Spark
  • Запрос данных из базы данных KQL

Необходимые компоненты

1. Создание базы данных KQL

  1. Откройте переключатель интерфейса в нижней части области навигации и выберите "Аналитика в режиме реального времени".

  2. Выберите плитку базы данных KQL.

    Снимок экрана: новая плитка базы данных KQL в аналитике в режиме реального времени.

  3. В поле "Имя базы данных KQL" введите nycGreenTaxi, а затем нажмите кнопку "Создать".

    База данных KQL создается в контексте выбранной рабочей области.

  4. Скопируйте URI запроса из карточки сведений о базе данных на панели мониторинга базы данных и вставьте его где-то, например блокнот, для использования на следующем шаге.

     Снимок экрана: карточка сведений о базе данных с подробными сведениями о базе данных. Выделен параметр URI запроса с заголовком URI копирования.

2. Скачивание записной книжки NYC GreenTaxi

Мы создали пример записной книжки, которая выполняет все необходимые действия для загрузки данных в базу данных с помощью соединителя Spark.

  1. Откройте репозиторий примеров Fabric на GitHub, чтобы скачать записную книжку NYC GreenTaxi KQL.

    Снимок экрана репозитория GitHub с записной книжкой NYC GreenTaxi. Выделен параметр

  2. Сохраните записную книжку локально на устройстве.

    Примечание.

    Записная книжка должна быть сохранена .ipynb в формате файла.

3. Импорт записной книжки

Остальная часть этого рабочего процесса выполняется в разделе Инжиниринг данных продукта и использует записную книжку Spark для загрузки и запроса данных в базе данных KQL.

  1. Откройте переключатель интерфейса в нижней части области навигации и выберите " Разработка ", а затем рабочую область.

  2. Выберите импорт>записной книжки>с этого компьютера>, а затем выберите записную книжку NYC GreenTaxi, скачаемую на предыдущем шаге.

    Снимок экрана: окно состояния импорта. Выделена кнопка

  3. После завершения импорта откройте записную книжку из рабочей области.

4. Получение данных

Чтобы запросить базу данных с помощью соединителя Spark, необходимо предоставить доступ на чтение и запись к контейнеру BLOB-объектов NYC GreenTaxi.

Нажмите кнопку воспроизведения , чтобы запустить следующие ячейки, или нажмите клавишу SHIFT+ВВОД. Повторите этот шаг для каждой ячейки кода.

Примечание.

Дождитесь появления флажка завершения перед выполнением следующей ячейки.

  1. Выполните следующую ячейку, чтобы включить доступ к контейнеру BLOB-объектов NYC GreenTaxi.

    Снимок экрана: первая ячейка кода с информацией о доступе к хранилищу.

  2. В KustoURI вставьте URI запроса, скопированный ранее вместо текста заполнителя.

  3. Измените имя заполнителя на nycGreenTaxi.

  4. Измените имя заполнителя на GreenTaxiData.

    Снимок экрана: вторая ячейка кода с сведениями о целевой базе данных. Выделен URI запроса, имя базы данных и имя таблицы.

  5. Запустите ячейку.

  6. Запустите следующую ячейку, чтобы записать данные в базу данных. Выполнение этого шага может занять несколько минут.

    Снимок экрана: третья ячейка кода с сопоставлением таблиц и командой приема.

Теперь база данных содержит данные, загруженные в таблицу с именем GreenTaxiData.

5. Запуск записной книжки

Запустите оставшиеся две ячейки последовательно, чтобы запросить данные из таблицы. В результатах показаны первые 20 самых высоких и низких тарифов на такси и расстояний, записанных в год.

Снимок экрана: четвертая и пятая ячейка кода с результатами запроса.

6. Очистка ресурсов

Очистите элементы, созданные путем перехода к рабочей области, в которой они были созданы.

  1. В рабочей области наведите указатель мыши на записную книжку, которую вы хотите удалить, выберите меню "Дополнительно" [...] >Удаление.

    Снимок экрана: рабочая область с раскрывающимся меню записной книжки NYC GreenTaxi. Выделен параметр

  2. Выберите команду Удалить. Вы не можете восстановить записную книжку после его удаления.