Поделиться через


Настройка конвейера разностных динамических таблиц

В этой статье описывается базовая конфигурация конвейеров Delta Live Tables с помощью пользовательского интерфейса рабочей области.

Databricks рекомендует разрабатывать новые конвейеры с помощью бессерверных. Инструкции по настройке бессерверных конвейеров см. в разделе "Настройка бессерверных конвейеров Delta Live Tables".

Инструкции по настройке в этой статье используют каталог Unity. Инструкции по настройке конвейеров с устаревшим хранилищем метаданных Hive см. в разделе Использование конвейеров Delta Live Tables с устаревшим хранилищем метаданных Hive.

Примечание.

Пользовательский интерфейс имеет возможность отображения и изменения параметров в ФОРМАТЕ JSON. Большинство параметров можно настроить с помощью пользовательского интерфейса или спецификации JSON. Некоторые дополнительные параметры доступны только с помощью конфигурации JSON.

Файлы конфигурации JSON также полезны при развертывании конвейеров в новых средах или с помощью ИНТЕРФЕЙСА командной строки или REST API.

Полный справочник по параметрам конфигурации JSON delta Live Tables см . в конфигурациях конвейера delta Live Tables.

Настройка нового конвейера разностных динамических таблиц

Чтобы настроить новый конвейер Delta Live Tables, сделайте следующее:

  1. Щелкните разностные динамические таблицы на боковой панели.
  2. Нажмите кнопку "Создать конвейер".
  3. Укажите уникальное имя конвейера.
  4. (Необязательно) Значок средства выбора файлов Используйте средство выбора файлов для настройки записных книжек и файлов рабочей области в качестве исходного кода.
    • Если вы не добавляете исходный код, для конвейера создается новая записная книжка. Записная книжка создается в новом каталоге пользователя, а ссылка на доступ к этой записной книжке отображается в поле "Исходный код " в области сведений о конвейере после создания конвейера.
      • Вы можете получить доступ к этой записной книжке с URL-адресом , представленным в поле исходного кода на панели сведений о конвейере после создания конвейера.
    • Нажмите кнопку "Добавить исходный код", чтобы добавить дополнительные ресурсы исходного кода .
  5. Выберите каталог Unity в разделе "Параметры хранилища".
  6. Выберите каталог для публикации данных.
  7. Выберите схему в каталоге. Все таблицы потоковой передачи и материализованные представления, определенные в конвейере, создаются в этой схеме.
  8. В разделе "Вычисления" установите флажок "Использовать ускорение фотона". Дополнительные рекомендации по настройке вычислительных ресурсов см. в разделе "Параметры конфигурации вычислений".
  9. Нажмите кнопку Создать.

Эти рекомендуемые конфигурации создают новый конвейер, настроенный для запуска в режиме активации и использования текущего канала. Эта конфигурация рекомендуется для многих вариантов использования, включая разработку и тестирование, и хорошо подходит для рабочих нагрузок, которые должны выполняться по расписанию. Дополнительные сведения о планировании конвейеров см . в задаче конвейера Delta Live Tables для заданий.

Параметры конфигурации вычислений

Databricks рекомендует всегда использовать расширенное автомасштабирование. Значения по умолчанию для других конфигураций вычислений хорошо работают для многих конвейеров.

Бессерверные конвейеры удаляют параметры конфигурации вычислений. Инструкции по настройке бессерверных конвейеров см. в разделе "Настройка бессерверных конвейеров Delta Live Tables".

Используйте следующие параметры для настройки конфигураций вычислений:

  • Администраторы рабочей области могут настроить политику кластера. Политики вычислений позволяют администраторам контролировать доступные для пользователей параметры вычислений. См. раздел "Выбор политики кластера".

  • При необходимости можно настроить режим кластера для запуска с фиксированным размером или устаревшим автомасштабированием. См. статью "Оптимизация использования кластеров конвейеров Delta Live Tables с расширенным автомасштабированием".

  • Для рабочих нагрузок с включенным автомасштабированием задайте для рабочих ролей Min и Max ограничения для поведения масштабирования. Сведения о настройке вычислений для конвейера Delta Live Tables.

  • При необходимости можно отключить ускорение Фотона. См. статью " Что такое Фотон?".

  • Используйте теги кластера для мониторинга затрат, связанных с конвейерами Delta Live Tables. См. раздел "Настройка тегов кластера".

  • Настройте типы экземпляров, чтобы указать тип виртуальных машин, используемых для запуска конвейера. См. раздел "Выбор типов экземпляров" для запуска конвейера.

    • Выберите тип рабочей роли, оптимизированный для рабочих нагрузок, настроенных в конвейере.
    • При необходимости можно выбрать тип драйвера, который отличается от типа рабочей роли. Это может быть полезно для снижения затрат в конвейерах с большими рабочими типами и низким использованием вычислительных ресурсов драйвера или для выбора более крупного типа драйвера, чтобы избежать проблем с нехваткой памяти в рабочих нагрузках с большим количеством небольших рабочих нагрузок.

Другие рекомендации по настройке

Для конвейеров также доступны следующие параметры конфигурации:

  • Выпуск Advanced product предоставляет доступ ко всем функциям Delta Live Tables. При необходимости можно запускать конвейеры с помощью выпусков продуктов Pro или Core . См. раздел "Выбор выпуска продукта".
  • При выполнении конвейеров в рабочей среде можно использовать режим непрерывного конвейера. См . раздел "Активировано и непрерывный режим конвейера".
  • Если рабочая область не настроена для каталога Unity или рабочей нагрузки необходимо использовать устаревшее хранилище метаданных Hive, см. статью Использование конвейеров Delta Live Tables с устаревшим хранилищем метаданных Hive.
  • Добавьте уведомления для обновлений электронной почты на основе условий успешного выполнения или сбоя. Дополнительные сведения о событиях конвейера см. в разделе "Добавление Уведомления по электронной почте".
  • Используйте поле "Конфигурация", чтобы задать пары "ключ-значение" для конвейера. Эти конфигурации служат двумя целями:
  • Используйте канал предварительной версии для проверки конвейера в ожидании изменений среды выполнения Delta Live Tables и пробной версии новых функций.

Выбор выпуска продукта

Выберите выпуск продукта Delta Live Tables с лучшими функциями для требований к конвейеру. Доступны следующие выпуски продуктов:

  • Core для выполнения рабочих нагрузок приема потоковой передачи. Выберите выпуск, Core если конвейер не требует дополнительных функций, таких как запись измененных данных (CDC) или ожидания разностных динамических таблиц.
  • Pro для выполнения приема потоковой передачи и рабочих нагрузок CDC. Выпуск продукта Pro поддерживает все функции Core, а также рабочие нагрузки, требующие обновления таблиц на основе изменений в исходных данных.
  • Advanced для выполнения рабочих нагрузок приема потоковой передачи, рабочих нагрузок CDC и рабочих нагрузок, требующих ожиданий. Выпуск Advanced продукта поддерживает функции Core и выпуски и Pro включает ограничения качества данных с ожиданиями Delta Live Tables.

Выпуск продукта можно выбрать при создании или изменении конвейера. Для каждого конвейера можно выбрать другой выпуск. См. страницу продукта Delta Live Tables.

Примечание. Если конвейер включает функции, не поддерживаемые выбранным выпуском продукта, например ожидания, вы получите сообщение об ошибке, объясняющее причину ошибки. Затем вы можете изменить конвейер, чтобы выбрать соответствующий выпуск.

Настройка исходного кода

Вы можете использовать селектор файлов в пользовательском интерфейсе разностных динамических таблиц для настройки исходного кода, определяющего конвейер. Исходный код конвейера определяется в записных книжках Databricks или скриптах SQL или Python, хранящихся в файлах рабочей области. При создании или изменении конвейера можно добавить одну или несколько записных книжек или файлов рабочей области или сочетание записных книжек и файлов рабочей области.

Так как разностные динамические таблицы автоматически анализируют зависимости набора данных для создания графа обработки для конвейера, можно добавлять ресурсы исходного кода в любом порядке.

Можно изменить JSON-файл, чтобы включить исходный код Delta Live Tables, определенный в скриптах SQL и Python, хранящихся в файлах рабочей области. В следующем примере содержатся записные книжки и файлы рабочей области:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Управление внешними зависимостями для конвейеров, использующих Python

Delta Live Tables поддерживает использование внешних зависимостей в конвейерах, таких как пакеты и библиотеки Python. Дополнительные сведения о параметрах и рекомендациях по использованию зависимостей см. в разделе "Управление зависимостями Python" для конвейеров Delta Live Tables.

Использование модулей Python, хранящихся в рабочей области Azure Databricks

Помимо реализации кода Python в записных книжках Databricks, вы можете использовать папки Databricks Git или файлы рабочей области для хранения кода в виде модулей Python. Хранение кода в виде модулей Python особенно полезно, если у вас есть общие функциональные возможности, которые вы хотите использовать в нескольких конвейерах или записных книжках в одном конвейере. Сведения об использовании модулей Python с конвейерами см. в статье "Импорт модулей Python" из папок Git или файлов рабочей области.