Azure Databricks для разработчиков на Scala

Статья
01/02/2025

В этой статье содержится руководство по разработке записных книжек и заданий в Azure Databricks с помощью языка Scala. Первый раздел содержит ссылки на руководства по общим рабочим процессам и задачам. Второй раздел содержит ссылки на API, библиотеки и ключевые инструменты.

Базовый рабочий процесс для начала работы

Импортируйте код и запустите его с помощью интерактивной записной книжки Databricks: импортируйте собственный код из файлов или репозиториев Git или воспользуйтесь приведенным ниже руководством.
Запустите код в кластере: создайте собственный кластер или убедитесь, что у вас есть разрешения на использование общего кластера. Подключите записную книжку к кластеру и запустите записную книжку.

После этого вы можете перейти к статьям по более конкретным темам:

Работа с большими наборами данных в Apache Spark
Добавление визуализаций
Автоматизация рабочей нагрузки в формате задания
Разработка в интегрированных средах разработки

Учебники

В приведенных ниже руководствах приведены примеры кода и записных книжек, чтобы узнать о распространенных рабочих процессах. Инструкции по импорту примеров записных книжек в рабочую область см. в этой статье.

Руководство. Загрузка и преобразование данных с помощью кадров данных Apache Spark
Руководство. Delta Lake содержит примеры Scala.
Использование XGBoost в Azure Databricks предоставляет пример Scala.

Справочные материалы

В приведенных ниже подразделах перечислены ключевые функции и советы, которые помогут вам приступить к разработке в Azure Databricks с помощью Scala.

API Scala

По этим ссылкам можно перейти к источникам с начальными сведениями и справочнику по Apache Spark Scala API.

Управление кодом с помощью записных книжек и папок Databricks Git

Записные книжки Databricks поддерживают Scala. Функциональные возможности этих записных книжек аналогичны возможностями Jupyter с некоторыми дополнениями, например: встроенные визуализации с использованием больших данных, интеграции Apache Spark для отладки и мониторинга производительности, интеграции MLflow для отслеживания экспериментов машинного обучения. Начните с импорта записной книжки. Получив доступ к кластеру, вы сможете подключить записную книжку к этому кластеру и запустить записную книжку.

Совет

Чтобы сбросить состояние записной книжки, перезапустите ядро. Для пользователей Jupyter параметр "перезапустить ядро" в Jupyter соответствует отсоединению и повторному прикреплению записной книжки в Databricks. Чтобы перезапустить ядро в записной книжке, щелкните селектор вычислений на панели инструментов записной книжки и наведите указатель мыши на подключенный кластер или хранилище SQL в списке, чтобы отобразить боковое меню. Выберите Отсоединить & повторно подключить. Это отсоединяет записную книжку от кластера и повторно присоединяет ее, которая перезапускает процесс.

Папки Databricks Git позволяют пользователям синхронизировать записные книжки и другие файлы с репозиториями Git. Папки Databricks Git помогают в работе с версиями кода и совместной работой, а также могут упростить импорт полного репозитория кода в Azure Databricks, просмотр последних версий записных книжек и интеграцию с разработкой интегрированной среды разработки. Начните с клонирования удаленного Git-репозитория. Затем можно открыть или создать записные книжки с клонированием репозитория, подключить записную книжку к кластеру и запустить записную книжку.

Кластеры и библиотеки

Вычислительные ресурсы Azure Databricks обеспечивают управление вычислительными ресурсами для кластеров любого размера: от кластеров одного узла до крупных кластеров. Вы можете настроить для кластера оборудование и библиотеки в соответствии с вашими потребностями. Специалисты по обработке и анализу данных обычно начинают работу, создавая кластер или используя существующий общий кластер. Получив доступ к кластеру, вы можете подключить записную книжку к кластеру или запустить задание в кластере.

Для небольших рабочих нагрузок, для которых требуются только отдельные узлы, специалисты по обработке и анализу данных могут использовать вычислительные ресурсы с одним узлом для экономии затрат.
Подробные советы см. в рекомендациях по настройке вычислений
Администраторы могут настроить политики кластера для упрощения и руководства по созданию кластера.

Кластеры Azure Databricks используют среду выполнения Databricks, которая предоставляет множество популярных библиотек вне коробки, включая Apache Spark, Delta Lake и многое другое. Вы также можете установить дополнительные сторонние или пользовательские библиотеки для использования с записными книжками и заданиями.

Начните с библиотек по умолчанию в версиях заметок о выпуске Databricks Runtime и совместимости. Полные списки предварительно установленных библиотек см. в заметках о выпуске Databricks Runtime и совместимости.
Вы также можете установить библиотеки Scala в кластере.
Дополнительные сведения см. в статье Библиотеки.

Визуализации

Записные книжки Azure Databricks для Scala имеют встроенную поддержку множества типов визуализаций. Вы также можете использовать устаревшие визуализации:

Совместимость

В данном разделе приведено описание инструментов, обеспечивающих комбинирование Scala и SQL.

Работы

Вы можете автоматизировать рабочие нагрузки Scala в виде запланированных или триггерных заданий в Azure Databricks. Задания могут запускать записные книжки и JAR.

Дополнительные сведения о создании задания с помощью пользовательского интерфейса см. в разделе "Настройка и изменение заданий Databricks".
Пакеты SDK Databricks позволяют создавать, изменять и удалять задания программным способом.
Интерфейс командной строки Databricks предоставляет удобный интерфейс командной строки для автоматизации заданий.

Идентификаторы, средства разработчика и пакеты SDK

Помимо разработки кода Scala в записных книжках Azure Databricks, вы можете разрабатывать внешние среды с помощью интегрированных сред разработки (IDEs), таких как IntelliJ IDEA. Чтобы синхронизировать работу между внешними средами разработки и Azure Databricks, существует несколько вариантов:

Код. Вы можете синхронизировать код с помощью Git. См . сведения об интеграции с Git для папок Databricks Git.
Библиотеки и задания. Вы можете создавать библиотеки извне и отправлять их в Azure Databricks. Эти библиотеки можно импортировать в записные книжки Azure Databricks или использовать их для создания заданий. См. Библиотеки и Общие сведения об оркестрации в Databricks.
Выполнение на удаленном компьютере. Вы можете запустить код из локальной интегрированной среды разработки для интерактивной разработки и тестирования. Интегрированная среда разработки может взаимодействовать с Azure Databricks для выполнения больших вычислений в кластерах Azure Databricks. Например, с Databricks Connect можно использовать IntelliJ IDEA.

Databricks предоставляет набор пакетов SDK, поддерживающих автоматизацию и интеграцию с внешними инструментами. Пакеты SDK Databricks можно использовать для управления ресурсами, такими как кластеры и библиотеки, код и другие объекты рабочей области, рабочие нагрузки и задания и многое другое. См. пакеты SDK Databricks.

Дополнительные сведения об интегрированных средах разработки, средствах разработчика и SDK см. в Локальные средства разработки.

Дополнительные ресурсы

Академия Databricks предлагает курсы для самостоятельного изучения и с инструкторами по многим темам.

Поделиться через

Azure Databricks для разработчиков на Scala

Учебники

Справочные материалы

API Scala

Управление кодом с помощью записных книжек и папок Databricks Git

Кластеры и библиотеки

Визуализации

Совместимость

Работы

Идентификаторы, средства разработчика и пакеты SDK

Дополнительные ресурсы

Обратная связь

Дополнительные ресурсы