Azure Databricks для разработчиков на Scala
В этой статье содержится руководство по разработке записных книжек и заданий в Azure Databricks с помощью языка Scala. Первый раздел содержит ссылки на руководства по общим рабочим процессам и задачам. Второй раздел содержит ссылки на API, библиотеки и ключевые инструменты.
Базовый рабочий процесс для начала работы
- Импортируйте код и запустите его с помощью интерактивной записной книжки Databricks: импортируйте собственный код из файлов или репозиториев Git или воспользуйтесь приведенным ниже руководством.
- Запустите код в кластере: создайте собственный кластер или убедитесь, что у вас есть разрешения на использование общего кластера. Подключите записную книжку к кластеру и запустите записную книжку.
После этого вы можете перейти к статьям по более конкретным темам:
- Работа с большими наборами данных в Apache Spark
- Добавление визуализаций
- Автоматизация рабочей нагрузки в формате задания
- Разработка в интегрированных средах разработки
Учебники
В приведенных ниже руководствах приведены примеры кода и записных книжек, чтобы узнать о распространенных рабочих процессах. Инструкции по импорту примеров записных книжек в рабочую область см. в этой статье.
- Руководство. Загрузка и преобразование данных с помощью кадров данных Apache Spark
- Руководство. Delta Lake содержит примеры Scala.
- Использование XGBoost в Azure Databricks предоставляет пример Scala.
Справочные материалы
Приведенные ниже подразделы list, в которых представлены ключевые функции и советы, помогут вам начать разработку на Azure Databricks с использованием Scala.
API Scala
По этим ссылкам можно перейти к источникам с начальными сведениями и справочнику по Apache Spark Scala API.
- Руководство. Загрузка и преобразование данных с помощью кадров данных Apache Spark
- Запрос строк JSON
- Общие сведения о структурированном потоке
- Справочник по API Apache Spark Core
- Справочник по API машинного обучения Apache Spark
Управление кодом с помощью записных книжек и папок Databricks Git
Записные книжки Databricks поддерживают Scala. Функциональные возможности этих записных книжек аналогичны возможностями Jupyter с некоторыми дополнениями, например: встроенные визуализации с использованием больших данных, интеграции Apache Spark для отладки и мониторинга производительности, интеграции MLflow для отслеживания экспериментов машинного обучения. Get начал с импортирования записной книжки. Получив доступ к кластеру, вы сможете подключить записную книжку к этому кластеру и запустить записную книжку.
Совет
Чтобы reset состояние записной книжки, перезапустите ядро. Для пользователей Jupyter параметр "перезапустить ядро" в Jupyter соответствует отсоединению и повторному прикреплению записной книжки в Databricks. Чтобы перезапустить ядро в записной книжке, щелкните селектор вычислений на панели инструментов записной книжки и наведите указатель мыши на подключенный кластер или хранилище SQL в list, чтобы отобразить боковое меню. Select отсоединить & повторно подключить. Это отсоединяет записную книжку от кластера и повторно присоединяет ее, которая перезапускает процесс.
Папки Databricks Git позволяют пользователям синхронизировать записные книжки и другие файлы с репозиториями Git. Папки Databricks Git помогают в работе с версиями кода и совместной работой, а также могут упростить импорт полного репозитория кода в Azure Databricks, просмотр последних версий записных книжек и интеграцию с разработкой интегрированной среды разработки. Get начато клонирование удаленного репозитория Git. Затем можно открыть или создать записные книжки с клонированием репозитория, подключить записную книжку к кластеру и запустить записную книжку.
Кластеры и библиотеки
Вычислительные ресурсы Azure Databricks обеспечивают управление вычислительными ресурсами для кластеров любого размера: от кластеров одного узла до крупных кластеров. Вы можете настроить для кластера оборудование и библиотеки в соответствии с вашими потребностями. Специалисты по обработке и анализу данных обычно начинают работу, создавая кластер или используя существующий общий кластер. Получив доступ к кластеру, вы можете подключить записную книжку к кластеру или запустить задание в кластере.
- Для небольших рабочих нагрузок, для которых требуются только отдельные узлы, специалисты по обработке и анализу данных могут использовать вычислительные ресурсы с одним узлом для экономии затрат.
- Подробные советы см. в рекомендациях по настройке вычислений
- Администраторы могут setполитиках кластера для упрощения и руководства по созданию кластера.
Кластеры Azure Databricks используют среду выполнения Databricks, которая предоставляет множество популярных библиотек вне коробки, включая Apache Spark, Delta Lake и многое другое. Вы также можете установить дополнительные сторонние или пользовательские библиотеки для использования с записными книжками и заданиями.
- Начните с библиотек по умолчанию в версиях заметок о выпуске Databricks Runtime и совместимости. Полные списки предварительно установленных библиотек см. в заметках о выпуске Databricks Runtime и совместимости.
- Вы также можете установить библиотеки Scala в кластере.
- Дополнительные сведения см. в статье Библиотеки.
Визуализации
Записные книжки Azure Databricks для Scala имеют встроенную поддержку множества типов визуализаций. Вы также можете использовать устаревшие визуализации:
Совместимость
В данном разделе приведено описание инструментов, обеспечивающих комбинирование Scala и SQL.
Работы
Вы можете автоматизировать рабочие нагрузки Scala в виде запланированных или триггерных заданий в Azure Databricks. Задания могут запускать записные книжки и JAR.
- Дополнительные сведения о создании задания с помощью пользовательского интерфейса см. в разделе "Настройка и изменение заданий Databricks".
- Пакеты SDK Databricks позволяют создавать, изменять и удалять задания программным способом.
- Интерфейс командной строки Databricks предоставляет удобный интерфейс командной строки для автоматизации заданий.
Идентификаторы, средства разработчика и пакеты SDK
Помимо разработки кода Scala в записных книжках Azure Databricks, вы можете разрабатывать внешние среды с помощью интегрированных сред разработки (IDEs), таких как IntelliJ IDEA. Чтобы синхронизировать работу между внешними средами разработки и Azure Databricks, существует несколько вариантов:
- Код. Вы можете синхронизировать код с помощью Git. См . сведения об интеграции с Git для папок Databricks Git.
- Библиотеки и задания. Вы можете создавать библиотеки извне и отправлять их в Azure Databricks. Эти библиотеки можно импортировать в записные книжки Azure Databricks или использовать их для создания заданий. См . библиотеки и расписания и оркестрации рабочих процессов.
- Выполнение на удаленном компьютере. Вы можете запустить код из локальной интегрированной среды разработки для интерактивной разработки и тестирования. Интегрированная среда разработки может взаимодействовать с Azure Databricks для выполнения больших вычислений в кластерах Azure Databricks. Например, с Databricks Connect можно использовать IntelliJ IDEA.
Databricks предоставляет set наборов SDK, которые поддерживают автоматизацию и интеграцию с внешними инструментами. Пакеты SDK Databricks можно использовать для управления ресурсами, такими как кластеры и библиотеки, код и другие объекты рабочей области, рабочие нагрузки и задания и многое другое. См. пакеты SDK Databricks.
Дополнительные сведения о средах разработки, средствах разработчика и пакетах SDK см. в Средства разработчика.
Дополнительные ресурсы
- Академия Databricks предлагает курсы для самостоятельного изучения и с инструкторами по многим темам.