Запуск примера записной книжки с помощью Spark
Область применения: SQL Server 2019 (15.x)
Внимание
Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, и программное обеспечение будет продолжать поддерживаться с помощью накопительных обновлений SQL Server до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.
В этом руководстве демонстрируется загрузка и запуск записной книжки Azure Data Studio в кластере больших данных SQL Server 2019. Такой подход позволяет специалистам по обработке и анализу данных выполнять код Python, R или Scala в кластере.
Совет
При необходимости вы можете скачать и выполнить скрипт, содержащий команды из этого руководства. См. инструкции в примерах Spark на сайте GitHub.
Необходимые компоненты
- Средства работы с большими данными
- kubectl
- Azure Data Studio
- Расширение SQL Server 2019
- Загрузка примера данных в кластер больших данных
Скачивание файла с примером записной книжки
Чтобы загрузить файл с примером записной книжки spark-sql.ipynb в Azure Data Studio, выполните следующие инструкции.
Откройте командную строку Bash (Linux) или Windows PowerShell.
Перейдите в каталог, в который требуется скачать файл с примером записной книжки.
Выполните следующую команду curl, чтобы скачать файл с записной книжкой с сайта GitHub:
curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb
Открытие записной книжки
Выполните следующие действия, чтобы открыть файл с записной книжкой в Azure Data Studio:
В Azure Data Studio установите подключение к главному экземпляру в кластере больших данных. Дополнительные сведения см. в разделе Подключение к кластеру больших данных.
Дважды щелкните подключение шлюза HDFS/Spark в окне Серверы. Выберите Открыть записную книжку.
Дождитесь, пока будет заполнено поле Ядро и задан целевой контекст (Присоединить к). В поле Ядро укажите PySpark3, а в поле Присоединить к введите IP-адрес конечной точки вашего кластера больших данных.
Внимание
В Azure Data Studio записные книжки Spark всех типов (Scala Spark, PySpark и Spark) обычно определяют некоторые важные переменные для сеансов Spark при первом выполнении ячейки. Это такие переменные, как spark
, sc
и sqlContext
. При копировании логики из записных книжек для отправки пакета (например, в файл Python для запуска с помощью azdata bdc spark batch create
) убедитесь, что эти переменные определены соответствующим образом.
Запуск ячеек записной книжки
Чтобы запустить любую ячейку записной книжки, нажмите расположенную слева от нее кнопку воспроизведения. После того как выполнение ячейки будет завершено, в записной книжке будут показаны результаты.
Последовательно запустите все ячейки в примере записной книжки. Дополнительные сведения об использовании записных книжек с Кластеры больших данных SQL Server см. в следующих ресурсах:
Следующие шаги
Дополнительные сведения о записных книжках: