Что такое пакеты ресурсов Databricks?
Наборы активов Databricks (DAB) — это средство для упрощения внедрения рекомендаций по проектированию программного обеспечения, включая управление версиями, проверку кода, тестирование и непрерывную интеграцию и доставку (CI/CD) для ваших данных и проектов ИИ. Пакеты позволяют описать ресурсы Databricks, такие как задания, конвейеры и записные книжки в качестве исходных файлов. Эти исходные файлы предоставляют комплексное определение проекта, включая структуру, тестирование и развертывание, что упрощает совместную работу над проектами во время активной разработки.
Пакеты предоставляют способ включения метаданных вместе с исходными файлами проекта. При развертывании проекта с помощью пакетов эти метаданные используются для подготовки инфраструктуры и других ресурсов. Затем коллекция исходных файлов и метаданных проекта развертывается в качестве одного пакета в целевой среде. Пакет включает следующие части:
- Обязательные конфигурации облачной инфраструктуры и рабочей области
- Исходные файлы, такие как записные книжки и файлы Python, которые включают бизнес-логику
- Определения и параметры для ресурсов Databricks, таких как задания Azure Databricks, конвейеры Delta Live Tables, конечные точки обслуживания моделей, эксперименты MLflow и зарегистрированные модели MLflow
- Модульные тесты и тесты интеграции
На следующей схеме представлено высокоуровневое представление конвейера разработки и CI/CD с пакетами:
Когда следует использовать пакеты ресурсов Databricks?
Пакеты ресурсов Databricks — это подход к управлению проектами Databricks как кода (IaC). Используйте их, если вы хотите управлять сложными проектами, where несколько участников и автоматизации являются важными, а непрерывная интеграция и развертывание (CI/CD) являются обязательными. Так как пакеты определяются и управляются с помощью шаблонов и файлов YAML, которые создаются и поддерживаются вместе с исходным кодом, они хорошо сопоставляются с сценариями, where IaC является подходящим подходом.
Ниже приведены некоторые идеальные сценарии для пакетов:
- Разработка проектов данных, аналитики и машинного обучения в командной среде. Пакеты помогают эффективно упорядочивать и управлять различными исходными файлами. Это обеспечивает гладкую совместную работу и упрощенные процессы.
- Итерацию проблем машинного обучения быстрее. Управление ресурсами конвейера машинного обучения (например, задания обучения и пакетного вывода) с помощью проектов машинного обучения, которые соответствуют рабочим рекомендациям с самого начала.
- Set организационные стандарты для новых проектов путем создания пользовательских шаблонов пакетов, включающих разрешения по умолчанию, субъекты-службы и конфигурации CI/CD.
- В отраслях where соблюдение нормативных требований является значительной проблемой, и сборки могут помочь поддерживать версионную историю работы кода и инфраструктуры. Это помогает в управлении и гарантирует соблюдение необходимых стандартов соответствия.
Как работают пакеты ресурсов Databricks?
Метаданные пакета определяются с помощью файлов YAML, которые указывают артефакты, ресурсы и конфигурацию проекта Databricks. Этот файл YAML можно создать вручную или generate с помощью шаблона пакета. Затем интерфейс командной строки Databricks можно использовать для проверки, развертывания и запуска пакетов с помощью этих файлов YAML пакета. Вы можете запускать проекты пакета из удостоверений, терминалов или в Databricks напрямую. В этой статье используется интерфейс командной строки Databricks.
Пакеты можно создавать вручную или на основе шаблона. Интерфейс командной строки Databricks предоставляет шаблоны по умолчанию для простых вариантов использования, но для более конкретных или сложных заданий можно создать настраиваемые шаблоны пакетов для реализации рекомендаций вашей команды и обеспечения согласованности распространенных конфигураций.
Дополнительные сведения о конфигурации YAML, используемой для выражения пакетов активов Databricks, см. в разделе "Конфигурация пакета активов Databricks".
Настройка среды для использования пакетов
Интерфейс командной строки Databricks используется для развертывания пакетов из командной строки. Для установки интерфейса командной строки Databricks см. в разделе Установка или update Интерфейс командной строки Databricks.
Пакеты активов Databricks доступны в Интерфейсе командной строки Databricks версии 0.218.0 или выше. Чтобы найти установленную версию интерфейса командной строки Databricks, выполните следующую команду:
databricks --version
После установки интерфейса командной строки Databricks убедитесь, что удаленные рабочие области Databricks настроены правильно. Для пакетов требуется включить функцию файлов рабочей области. Если вы используете Databricks Runtime версии 11.3 LTS или более поздней, эта функция включена по умолчанию.
Проверка подлинности
Azure Databricks предоставляет несколько методов проверки подлинности:
- Для в сценариях проверки подлинности, таких как ручные рабочие процессы where, вы используете веб-браузер для входа в целевую рабочую область Azure Databricks (когда появляется запрос Databricks CLI), используйте проверку подлинности пользователя OAuth (U2M). Этот метод идеально подходит для экспериментов с руководствами по началу работы с пакетами ресурсов Databricks или для быстрого разработки пакетов.
- Для сценариев автоматической проверки подлинности, таких как полностью автоматизированные рабочие процессы, в которых нет возможности использовать веб-браузер для входа в целевую рабочую область Azure Databricks в то время, используйте проверку подлинности OAuth на компьютере (M2M). Этот метод требует использования субъектов-служб Azure Databricks и идеально подходит для использования пакетов ресурсов Databricks с системами CI/CD, такими как GitHub.
Для проверки подлинности OAuth U2M выполните следующие действия.
Используйте интерфейс командной строки Databricks для локального запуска управления маркерами OAuth, выполнив следующую команду для каждой целевой рабочей области.
В следующей команде замените
<workspace-url>
URL-адрес Azure Databricks для каждой рабочей области, напримерhttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --host <workspace-url>
Интерфейс командной строки Databricks предлагает сохранить сведения, введенные в качестве профиля конфигурации Azure Databricks. Нажмите,
Enter
чтобы принять предлагаемое имя профиля, или введите имя нового или существующего профиля. Любой существующий профиль с тем же именем перезаписывается с введенными сведениями. Профили можно использовать для быстрого переключения контекста проверки подлинности в нескольких рабочих областях.Чтобы getlist любых существующих профилей, откройте отдельный терминал или командную строку и используйте интерфейс командной строки Databricks для выполнения команды
databricks auth profiles
. Чтобы просмотреть существующие параметры конкретного профиля, выполните командуdatabricks auth env --profile <profile-name>
.В веб-браузере выполните инструкции на экране, чтобы войти в рабочую область Azure Databricks.
Чтобы просмотреть текущее значение маркера OAuth профиля и метку времени окончания срока действия маркера, выполните одну из следующих команд:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Если у вас есть несколько профилей с
--host
одинаковым значением, может потребоваться указать и--host
параметры-p
вместе, чтобы помочь Databricks CLI найти правильные соответствующие сведения о маркере OAuth.
Имя этого профиля конфигурации можно использовать одним или несколькими способами при проверке, развертывании, запуске или уничтожении пакетов:
- С параметром
-p <profile-name>
командной строки, добавленным к командамdatabricks bundle validate
,databricks bundle deploy
databricks bundle run
илиdatabricks bundle destroy
. См. статью о разработке пакетов активов Databricks. - Как значение сопоставления
profile
в верхнеуровневом сопоставленииworkspace
файла конфигурации пакета (хотя Databricks рекомендует использовать сопоставлениеhost
на set, которое связано с URL-адресом рабочей области Azure Databricks, вместо сопоставленияprofile
, так как это делает файлы конфигурации пакета более переносимыми). См. сведения о сопоставленииprofile
в рабочей области. - Если имя профиля конфигурации равно
DEFAULT
, оно используется по умолчанию, если параметр командной строки-p <profile-name>
илиprofile
сопоставление (илиhost
) не указано.
Для проверки подлинности OAuth M2M выполните следующие действия.
Выполните инструкции по настройке проверки подлинности OAuth M2M. Ознакомьтесь с проверкой подлинности доступа к Azure Databricks с помощью субъекта-службы с помощью OAuth (OAuth M2M).
Установите интерфейс командной строки Databricks в целевом вычислительном ресурсе одним из следующих способов:
- Чтобы вручную установить интерфейс командной строки Databricks на вычислительном ресурсе в реальном времени, ознакомьтесь с установкой или с update Databricks CLI.
- Чтобы использовать GitHub Actions для автоматической установки интерфейса командной строки Databricks на виртуальной машине GitHub, ознакомьтесь с командой установки в GitHub.
- Чтобы использовать другие системы CI/CD для автоматической установки интерфейса командной строки Databricks на виртуальной машине, ознакомьтесь с документацией вашего поставщика системы CI/CD и установите или update интерфейс командной строки Databricks.
Set следующие переменные среды в вычислительном ресурсе следующим образом:
-
DATABRICKS_HOST
set URL-адрес azure Databricks для каждой рабочей области, напримерhttps://adb-1234567890123456.7.azuredatabricks.net
. к значению идентификатора приложения субъекта-службы Azure Databricks. -
DATABRICKS_CLIENT_SECRET
set к значению OAuth-секрета принципала сервиса Azure Databricks.
Чтобы set эти переменные среды, см. документацию по операционной системе целевого вычислительного ресурса или системе CI/CD.
-
Разработка первого пакета ресурсов Databricks
Самый быстрый способ начать разработку пакетов — использовать шаблон проекта пакета. Создайте первый проект пакета с помощью команды init пакета Databricks CLI. Эта команда представляет выбор шаблонов пакетов по умолчанию, предоставляемых Databricks, и задает ряд вопросов для инициализации переменных проекта.
databricks bundle init
Создание пакета является первым шагом в жизненном цикле пакета. Второй шаг — разработка пакета, ключевой элемент которого определяет параметры пакета и ресурсы в databricks.yml
файлах конфигурации ресурсов и файлов конфигурации ресурсов. Сведения о конфигурации пакета см. в разделе "Конфигурация пакета ресурсов Databricks".
Совет
Примеры конфигурации пакета можно найти в примерах конфигурации пакета и репозитории примеров пакетов в GitHub.
Следующие шаги
- Создайте пакет, который развертывает записную книжку в рабочей области Azure Databricks, а затем запускает развернутую записную книжку в качестве задания Azure Databricks. См. статью "Разработка задания в Azure Databricks с помощью пакетов ресурсов Databricks".
- Создайте пакет, который развертывает ноутбук в рабочей области Azure Databricks, а затем запускает развернутый ноутбук как конвейер Delta Live Tables. См. статью Разработка конвейеров Delta Live Tables с помощью пакетов активов Databricks.
- Создайте пакет, который развертывает и запускает стек MLOps. Ознакомьтесь с пакетами ресурсов Databricks для стеков MLOps.
- Добавьте пакет в рабочий процесс CI/CD (непрерывная интеграция и непрерывное развертывание) в GitHub. См . сведения о выполнении рабочего процесса CI/CD с помощью пакета ресурсов Databricks и GitHub Actions.
- Создайте пакет, который создает, развертывает и вызывает файл колесика Python. См. статью "Разработка файла колеса Python с помощью пакетов ресурсов Databricks".
- Создайте пользовательский шаблон, который можно использовать для создания пакета. Настраиваемый шаблон может включать разрешения по умолчанию, субъекты-службы и настраиваемую конфигурацию CI/CD. См . шаблоны проектов пакета активов Databricks.
- Миграция из dbx в пакеты ресурсов Databricks. См. раздел "Миграция из dbx в пакеты".
- Узнайте о последних новых возможностях, выпущенных для пакетов ресурсов Databricks. См . заметки о выпуске компонентов пакета ресурсов Databricks.