Руководство. Использование записной книжки с Apache Spark для запроса к базе данных KQL
Записные книжки — это доступные для чтения документы, содержащие описания анализа данных и результаты и исполняемые документы, которые можно запускать для выполнения анализа данных. Из этой статьи вы узнаете, как использовать записную книжку Microsoft Fabric для чтения и записи данных в базу данных KQL с помощью Apache Spark. В этом руководстве используются предварительно созданные наборы данных и записные книжки как в аналитике в режиме реального времени, так и в средах Инжиниринг данных в Microsoft Fabric. Дополнительные сведения о записных книжках см. в статье "Использование записных книжек Microsoft Fabric".
В частности, вы узнаете, как выполнять следующие задачи:
- Создание базы данных KQL
- Импорт записной книжки
- Запись данных в базу данных KQL с помощью Apache Spark
- Запрос данных из базы данных KQL
Необходимые компоненты
- Рабочая область с емкостью с поддержкой Microsoft Fabric
1. Создание базы данных KQL
Откройте переключатель интерфейса в нижней части области навигации и выберите "Аналитика в режиме реального времени".
Выберите плитку базы данных KQL.
В поле "Имя базы данных KQL" введите nycGreenTaxi, а затем нажмите кнопку "Создать".
База данных KQL создается в контексте выбранной рабочей области.
Скопируйте URI запроса из карточки сведений о базе данных на панели мониторинга базы данных и вставьте его где-то, например блокнот, для использования на следующем шаге.
2. Скачивание записной книжки NYC GreenTaxi
Мы создали пример записной книжки, которая выполняет все необходимые действия для загрузки данных в базу данных с помощью соединителя Spark.
Откройте репозиторий примеров Fabric на GitHub, чтобы скачать записную книжку NYC GreenTaxi KQL.
Сохраните записную книжку локально на устройстве.
Примечание.
Записная книжка должна быть сохранена
.ipynb
в формате файла.
3. Импорт записной книжки
Остальная часть этого рабочего процесса выполняется в разделе Инжиниринг данных продукта и использует записную книжку Spark для загрузки и запроса данных в базе данных KQL.
Откройте переключатель интерфейса в нижней части области навигации и выберите " Разработка ", а затем рабочую область.
Выберите импорт>записной книжки>с этого компьютера>, а затем выберите записную книжку NYC GreenTaxi, скачаемую на предыдущем шаге.
После завершения импорта откройте записную книжку из рабочей области.
4. Получение данных
Чтобы запросить базу данных с помощью соединителя Spark, необходимо предоставить доступ на чтение и запись к контейнеру BLOB-объектов NYC GreenTaxi.
Нажмите кнопку воспроизведения , чтобы запустить следующие ячейки, или нажмите клавишу SHIFT+ВВОД. Повторите этот шаг для каждой ячейки кода.
Примечание.
Дождитесь появления флажка завершения перед выполнением следующей ячейки.
Выполните следующую ячейку, чтобы включить доступ к контейнеру BLOB-объектов NYC GreenTaxi.
В KustoURI вставьте URI запроса, скопированный ранее вместо текста заполнителя.
Измените имя заполнителя на nycGreenTaxi.
Измените имя заполнителя на GreenTaxiData.
Запустите ячейку.
Запустите следующую ячейку, чтобы записать данные в базу данных. Выполнение этого шага может занять несколько минут.
Теперь база данных содержит данные, загруженные в таблицу с именем GreenTaxiData.
5. Запуск записной книжки
Запустите оставшиеся две ячейки последовательно, чтобы запросить данные из таблицы. В результатах показаны первые 20 самых высоких и низких тарифов на такси и расстояний, записанных в год.
6. Очистка ресурсов
Очистите элементы, созданные путем перехода к рабочей области, в которой они были созданы.
В рабочей области наведите указатель мыши на записную книжку, которую вы хотите удалить, выберите меню "Дополнительно" [...] >Удаление.
Выберите команду Удалить. Вы не можете восстановить записную книжку после его удаления.