Настройка конвейера бессерверных динамических таблиц Delta Live Tables
В этой статье описаны конфигурации конвейеров бессерверных динамических таблиц Delta Live Tables.
Databricks рекомендует разрабатывать новые конвейеры с помощью бессерверных. Для некоторых рабочих нагрузок может потребоваться настройка классических вычислений или работа с устаревшим хранилищем метаданных Hive. Сведения о настройке вычислений для конвейера Delta Live Tables и использовании конвейеров Delta Live Tables с устаревшим хранилищем метаданных Hive.
Примечание.
Бессерверные конвейеры всегда используют каталог Unity. Каталог Unity для разностных динамических таблиц находится в общедоступной предварительной версии и имеет некоторые ограничения. См. раздел "Использование каталога Unity" с конвейерами Delta Live Tables.
Невозможно вручную добавить параметры вычислений
clusters
в объект в конфигурацию JSON для бессерверного конвейера. Попытка сделать это приведет к ошибке.Сведения о возможности и включении бессерверных конвейеров DLT см. в разделе "Включение бессерверных вычислений".
Если вам нужно использовать Приватный канал Azure подключение к бессерверным конвейерам DLT, обратитесь к представителю Databricks.
Требования
В рабочей области должен быть включен каталог Unity для использования бессерверных конвейеров.
Рекомендуемая конфигурация бессерверных конвейеров
Внимание
Разрешение на создание кластера не требуется для настройки бессерверных конвейеров. По умолчанию все пользователи рабочей области могут использовать бессерверные конвейеры.
Бессерверные конвейеры удаляют большинство параметров конфигурации, так как Azure Databricks управляет всей инфраструктурой. Чтобы настроить бессерверный конвейер, сделайте следующее:
- Щелкните разностные динамические таблицы на боковой панели.
- Нажмите кнопку "Создать конвейер".
- Укажите уникальное имя конвейера.
- Установите флажок рядом с бессерверным.
- (Необязательно) Используйте средство выбора файлов для настройки записных книжек и файлов рабочей области в качестве исходного кода.
- Если вы не добавляете исходный код, для конвейера создается новая записная книжка. Записная книжка создается в новом каталоге пользователя, а ссылка на доступ к этой записной книжке отображается в поле "Исходный код " в области сведений о конвейере после создания конвейера.
- Ссылка на доступ к этой записной книжке находится в поле исходного кода на панели сведений о конвейере после создания конвейера.
- Нажмите кнопку "Добавить исходный код", чтобы добавить дополнительные ресурсы исходного кода .
- Если вы не добавляете исходный код, для конвейера создается новая записная книжка. Записная книжка создается в новом каталоге пользователя, а ссылка на доступ к этой записной книжке отображается в поле "Исходный код " в области сведений о конвейере после создания конвейера.
- Выберите каталог для публикации данных.
- Выберите схему в каталоге. Все таблицы потоковой передачи и материализованные представления, определенные в конвейере, создаются в этой схеме.
- Нажмите кнопку Создать.
Эти рекомендуемые конфигурации создают новый конвейер, настроенный для запуска в режиме активации и текущем канале. Эта конфигурация рекомендуется для многих вариантов использования, включая разработку и тестирование, и хорошо подходит для рабочих нагрузок, которые должны выполняться по расписанию. Дополнительные сведения о планировании конвейеров см . в задаче конвейера Delta Live Tables для заданий.
Вы также можете преобразовать существующие конвейеры, настроенные в каталоге Unity, в бессерверные. См. раздел "Преобразование существующего конвейера в бессерверный".
Другие рекомендации по настройке
Следующие параметры конфигурации также доступны для бессерверных конвейеров:
- При выполнении конвейеров в рабочей среде можно использовать режим непрерывного конвейера. См . раздел "Активировано и непрерывный режим конвейера".
- Добавьте уведомления для обновлений электронной почты на основе условий успешного выполнения или сбоя. Дополнительные сведения о событиях конвейера см. в разделе "Добавление Уведомления по электронной почте".
- Используйте поле "Конфигурация", чтобы задать пары "ключ-значение" для конвейера. Эти конфигурации служат двумя целями:
- Задайте произвольные параметры, на которые можно ссылаться в исходном коде. См . раздел "Использование параметров" с конвейерами delta Live Tables.
- Настройте параметры конвейера и конфигурации Spark. См . справочник по свойствам "Разностные динамические таблицы".
- Используйте канал предварительной версии для проверки конвейера в ожидании изменений среды выполнения Delta Live Tables и пробной версии новых функций.
Политика бюджета
Внимание
Эта функция предоставляется в режиме общедоступной предварительной версии.
Политики бюджета позволяют организации применять пользовательские теги к бессерверному использованию для детализированного выставления счетов. После выбора флажка "Бессерверный" появится параметр политики "Бюджет", где можно выбрать политику, которую вы хотите применить к конвейеру. Теги наследуются от политики бюджета и могут изменяться только администраторами рабочей области.
Примечание.
После назначения политики бюджета существующие конвейеры не будут автоматически помечены политикой. Если вы хотите подключить политику к ним, необходимо вручную обновить существующие конвейеры.
Дополнительные сведения о политиках бюджета см. в разделе "Бессерверное использование атрибутов" с политиками бюджета.
Функции бессерверного конвейера
Помимо упрощения конфигурации бессерверные конвейеры имеют следующие функции:
Добавочное обновление для материализованных представлений: обновления для материализованных представлений обновляются постепенно, когда это возможно. Добавочное обновление имеет те же результаты, что и полная рекомпьюция. Обновление использует полное обновление, если результаты не могут быть вычисляться добавочно. См . добавочное обновление для материализованных представлений.
Конвейерная обработка потоков: для повышения использования, пропускной способности и задержки для рабочих нагрузок потоковой передачи данных, таких как прием данных, микробатки конвейерируются. Другими словами, вместо последовательного запуска микробаток, таких как стандартная структурированная потоковая передача Spark, бессерверные конвейеры DLT одновременно выполняют микробаты, повышая использование вычислительных ресурсов. Потоковые каналы включены по умолчанию в бессерверных конвейерах DLT.
Вертикальное автоматическое масштабирование: бессерверные конвейеры DLT добавляются в горизонтальное автомасштабирование, предоставляемое Databricks расширенным автомасштабированием, автоматически распределив наиболее экономичные типы экземпляров, которые могут запускать конвейер Delta Live Tables без сбоя из-за ошибок вне памяти. См. раздел "Что такое автомасштабирование по вертикали"?
Что такое вертикальное автомасштабирование?
Бессерверные конвейеры DLT вертикального автомасштабирования автоматически выделяют наиболее экономичные доступные типы экземпляров для запуска обновлений конвейера Delta Live Tables без сбоя из-за ошибок вне памяти. Вертикальное автоматическое масштабирование масштабируется вверх, когда для выполнения обновления конвейера требуются более крупные типы экземпляров, а также масштабируется при определении того, что обновление может выполняться с меньшими типами экземпляров. Вертикальное автомасштабирование определяет, следует ли масштабировать узлы драйверов, рабочие узлы или как драйверы, так и рабочие узлы.
Вертикальное автомасштабирование используется для всех бессерверных конвейеров DLT, включая конвейеры, используемые databricks SQL материализованные представления и таблицы потоковой передачи.
Вертикальное автомасштабирование работает путем обнаружения обновлений конвейера, которые завершились сбоем из-за ошибок вне памяти. Вертикальное автоматическое масштабирование выделяет более крупные типы экземпляров при обнаружении этих сбоев на основе данных вне памяти, собранных из сбоя обновления. В рабочем режиме новое обновление, использующее новые вычислительные ресурсы, запускается автоматически. В режиме разработки новые вычислительные ресурсы используются при запуске обновления вручную.
Если вертикальное автоматическое масштабирование обнаруживает, что память выделенных экземпляров постоянно недоиспользуется, она приведет к уменьшению масштаба типов экземпляров, используемых в следующем обновлении конвейера.
Преобразование существующего конвейера в бессерверный
Существующие конвейеры, настроенные с помощью каталога Unity, можно преобразовать в бессерверные конвейеры. Выполните следующие действия:
- Щелкните разностные динамические таблицы на боковой панели.
- Щелкните имя требуемого конвейера в списке.
- Щелкните Параметры.
- Установите флажок рядом с бессерверным.
- Нажмите кнопку "Сохранить" и " Начать".
Внимание
При включении бессерверных параметров вычислений, настроенных для конвейера, удаляются. При переключении конвейера обратно на несерверные обновления необходимо перенастроить требуемые параметры вычислений в конфигурацию конвейера.
Как найти использование бессерверного конвейера DBU?
Использование бессерверных конвейеров DLT можно найти, запросив таблицу использования, доступную для выставления счетов, часть системных таблиц Azure Databricks. См. раздел "Что такое потребление DBU бессерверного конвейера DLT?".