Поделиться через


Azure Databricks для разработчиков на Scala

В этой статье содержится руководство по разработке записных книжек и заданий в Azure Databricks с помощью языка Scala. Первый раздел содержит ссылки на руководства по общим рабочим процессам и задачам. Второй раздел содержит ссылки на API, библиотеки и ключевые инструменты.

Базовый рабочий процесс для начала работы

После этого вы можете перейти к статьям по более конкретным темам:

Учебники

В приведенных ниже руководствах приведены примеры кода и записных книжек, чтобы узнать о распространенных рабочих процессах. Инструкции по импорту примеров записных книжек в рабочую область см. в этой статье.

Справочные материалы

Приведенные ниже подразделы list, в которых представлены ключевые функции и советы, помогут вам начать разработку на Azure Databricks с использованием Scala.

API Scala

По этим ссылкам можно перейти к источникам с начальными сведениями и справочнику по Apache Spark Scala API.

Управление кодом с помощью записных книжек и папок Databricks Git

Записные книжки Databricks поддерживают Scala. Функциональные возможности этих записных книжек аналогичны возможностями Jupyter с некоторыми дополнениями, например: встроенные визуализации с использованием больших данных, интеграции Apache Spark для отладки и мониторинга производительности, интеграции MLflow для отслеживания экспериментов машинного обучения. Get начал с импортирования записной книжки. Получив доступ к кластеру, вы сможете подключить записную книжку к этому кластеру и запустить записную книжку.

Совет

Чтобы reset состояние записной книжки, перезапустите ядро. Для пользователей Jupyter параметр "перезапустить ядро" в Jupyter соответствует отсоединению и повторному прикреплению записной книжки в Databricks. Чтобы перезапустить ядро в записной книжке, щелкните селектор вычислений на панели инструментов записной книжки и наведите указатель мыши на подключенный кластер или хранилище SQL в list, чтобы отобразить боковое меню. Select отсоединить & повторно подключить. Это отсоединяет записную книжку от кластера и повторно присоединяет ее, которая перезапускает процесс.

Папки Databricks Git позволяют пользователям синхронизировать записные книжки и другие файлы с репозиториями Git. Папки Databricks Git помогают в работе с версиями кода и совместной работой, а также могут упростить импорт полного репозитория кода в Azure Databricks, просмотр последних версий записных книжек и интеграцию с разработкой интегрированной среды разработки. Get начато клонирование удаленного репозитория Git. Затем можно открыть или создать записные книжки с клонированием репозитория, подключить записную книжку к кластеру и запустить записную книжку.

Кластеры и библиотеки

Вычислительные ресурсы Azure Databricks обеспечивают управление вычислительными ресурсами для кластеров любого размера: от кластеров одного узла до крупных кластеров. Вы можете настроить для кластера оборудование и библиотеки в соответствии с вашими потребностями. Специалисты по обработке и анализу данных обычно начинают работу, создавая кластер или используя существующий общий кластер. Получив доступ к кластеру, вы можете подключить записную книжку к кластеру или запустить задание в кластере.

Кластеры Azure Databricks используют среду выполнения Databricks, которая предоставляет множество популярных библиотек вне коробки, включая Apache Spark, Delta Lake и многое другое. Вы также можете установить дополнительные сторонние или пользовательские библиотеки для использования с записными книжками и заданиями.

Визуализации

Записные книжки Azure Databricks для Scala имеют встроенную поддержку множества типов визуализаций. Вы также можете использовать устаревшие визуализации:

Совместимость

В данном разделе приведено описание инструментов, обеспечивающих комбинирование Scala и SQL.

Работы

Вы можете автоматизировать рабочие нагрузки Scala в виде запланированных или триггерных заданий в Azure Databricks. Задания могут запускать записные книжки и JAR.

  • Дополнительные сведения о создании задания с помощью пользовательского интерфейса см. в разделе "Настройка и изменение заданий Databricks".
  • Пакеты SDK Databricks позволяют создавать, изменять и удалять задания программным способом.
  • Интерфейс командной строки Databricks предоставляет удобный интерфейс командной строки для автоматизации заданий.

Идентификаторы, средства разработчика и пакеты SDK

Помимо разработки кода Scala в записных книжках Azure Databricks, вы можете разрабатывать внешние среды с помощью интегрированных сред разработки (IDEs), таких как IntelliJ IDEA. Чтобы синхронизировать работу между внешними средами разработки и Azure Databricks, существует несколько вариантов:

  • Код. Вы можете синхронизировать код с помощью Git. См . сведения об интеграции с Git для папок Databricks Git.
  • Библиотеки и задания. Вы можете создавать библиотеки извне и отправлять их в Azure Databricks. Эти библиотеки можно импортировать в записные книжки Azure Databricks или использовать их для создания заданий. См . библиотеки и расписания и оркестрации рабочих процессов.
  • Выполнение на удаленном компьютере. Вы можете запустить код из локальной интегрированной среды разработки для интерактивной разработки и тестирования. Интегрированная среда разработки может взаимодействовать с Azure Databricks для выполнения больших вычислений в кластерах Azure Databricks. Например, с Databricks Connect можно использовать IntelliJ IDEA.

Databricks предоставляет set наборов SDK, которые поддерживают автоматизацию и интеграцию с внешними инструментами. Пакеты SDK Databricks можно использовать для управления ресурсами, такими как кластеры и библиотеки, код и другие объекты рабочей области, рабочие нагрузки и задания и многое другое. См. пакеты SDK Databricks.

Дополнительные сведения о средах разработки, средствах разработчика и пакетах SDK см. в Средства разработчика.

Дополнительные ресурсы

  • Академия Databricks предлагает курсы для самостоятельного изучения и с инструкторами по многим темам.