Настройка вычислительных ресурсов для потока Delta Live Tables
В этой статье содержатся инструкции и рекомендации по настройке пользовательских параметров вычислений для конвейеров Delta Live Tables.
Бессерверные конвейеры не предоставляют параметры конфигурации вычислений. См. настройка конвейера бессерверных динамических таблиц Delta Live Tables.
Выбор политики кластера
Пользователи должны иметь разрешение на развертывание вычислений для настройки и обновления конвейеров Delta Live Tables. Администраторы рабочей области могут настроить политики кластера, чтобы предоставить пользователям доступ к вычислительным ресурсам для Delta Live Tables. См. раздел "Определение ограничений для вычислительных потоков Delta Live Tables".
Примечание.
Политики кластера являются необязательными. Обратитесь к администратору рабочей области, если у вас нет привилегий на вычисления, необходимых для Delta Live Tables.
Чтобы гарантировать правильное применение значения по умолчанию политики кластера, установите
apply_policy_default_values
наtrue
в конфигурации кластера в рамках настройки вашего конвейера.{ "clusters": [ { "label": "default", "policy_id": "<policy-id>", "apply_policy_default_values": true } ] }
Настройка тегов кластера
С помощью тегов кластера можно выполнять мониторинг использования кластеров конвейеров. Добавьте теги кластера в интерфейсе Delta Live Tables при создании или редактировании параметров конвейера или же при редактировании настроек JSON для кластеров этих конвейеров.
Выберите типы экземпляров для запуска конвейера
По умолчанию Delta Live Tables выбирает типы экземпляров для узлов драйвера и рабочих узлов вашего конвейера. При необходимости можно настроить типы экземпляров.
Например, выберите типы экземпляров, чтобы повысить производительность конвейера или устранить проблемы с памятью при запуске конвейера. Типы экземпляров можно настроить при создании или редактировании конвейере с помощью REST API или в пользовательском интерфейсе разностных динамических таблиц.
Чтобы настроить типы экземпляров при создании или редактировании конвейера в интерфейсе Delta Live Tables:
- Нажмите кнопку Параметры .
- В разделе Advanced параметров конвейера в раскрывающихся меню Тип рабочий и Тип драйвера выберите экземпляры для конвейера.
Расширенные конфигурации вычислений
Примечание.
Поскольку вычислительные ресурсы полностью управляются для бессерверных конвейеров DLT, вычислительные настройки недоступны при выборе Serverless для конвейера.
Каждый пайплайн Delta Live Tables имеет два связанных кластера.
- Кластер
updates
обрабатывает обновления конвейера. - Кластер
maintenance
выполняет задачи ежедневного обслуживания.
Параметры вычислений, указанные с помощью пользовательского интерфейса конфигурации конвейера рабочей области, применяются как к кластерам обновления, так и к кластерам обслуживания. Чтобы изменить эти параметры независимо, необходимо изменить конфигурацию JSON.
Конфигурация этих кластеров определяется атрибутом, clusters
указанным в параметрах конвейера.
С помощью меток кластера можно добавить параметры вычислений, которые применяются только к определенному типу кластера. При настройке кластеров конвейеров можно использовать три метки:
Примечание.
Параметр метки кластера может быть опущен, если определить только одну конфигурацию кластера. Метка default
применяется к конфигурациям кластера, если не указан параметр метки. Параметр метки кластера требуется только в том случае, если необходимо настроить параметры для разных типов кластеров.
- Метка
default
определяет параметры вычисленийupdates
как для кластеров, так иmaintenance
для кластеров. Применение одинаковых параметров к обоим кластерам повышает надежность выполнения технического обслуживания, обеспечивая применение необходимых конфигураций, таких как учетные данные для доступа к данным в расположении хранилища, к кластеру технического обслуживания. - Метка
maintenance
определяет параметры вычислений, которые применяются только к кластеруmaintenance
. Вы также можете использоватьmaintenance
метку для переопределения параметров, настроенныхdefault
меткой. - Метка
updates
определяет параметры, которые применяются только к кластеруupdates
. Используйте его для настройки параметров, которые не должны применяться к кластеруmaintenance
.
Параметры, определенные с помощью default
меток, updates
объединяются для создания окончательной конфигурации кластера updates
. Если один и тот же параметр определен с помощью обоих default
updates
и меток, параметр, определенный с меткой, переопределяет параметр, определенный updates
меткой default
.
В следующем примере определяется параметр конфигурации Spark, добавляемый только в конфигурацию кластера updates
:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
Delta Live Tables имеет аналогичные параметры кластеров, как и другие вычислительные ресурсы на Azure Databricks. Как и другие параметры конвейера, можно изменить конфигурацию JSON для кластеров, чтобы указать параметры, которые отсутствуют в пользовательском интерфейсе. См. раздел " Вычисления".
Примечание.
Так как среда выполнения Delta Live Tables управляет жизненным циклом кластеров конвейеров и запускает пользовательскую версию Databricks Runtime, вы не можете вручную задать некоторые параметры кластера в конфигурации конвейера, например версию Spark или имена кластеров. См . атрибуты кластера, которые не являются пользовательскими наборами.
Настройка типов экземпляров для кластеров обновления и обслуживания
Чтобы настроить типы экземпляров в параметрах JSON конвейера, нажмите кнопку JSON и введите конфигурации типов экземпляра в конфигурации кластера:
Примечание.
Чтобы избежать назначения ненужных ресурсов кластеру maintenance
, в этом примере используется метка updates
для задания типов экземпляров только для кластера updates
. Чтобы назначить типы экземпляров обоим updates
maintenance
кластерам, используйте default
метку или опустите параметр метки. Метка default
применяется к конфигурациям кластера конвейера, если не указан параметр метки. Дополнительные конфигурации вычислений см. в разделе "Дополнительные конфигурации вычислений".
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"..." : "..."
}
]
}
Задержка завершения работы вычислений
Для управления поведением завершения работы кластера можно использовать режим разработки или рабочей среды или использовать pipelines.clusterShutdown.delay
параметр в конфигурации конвейера. В следующем примере значение pipelines.clusterShutdown.delay
устанавливается равным 60 секундам:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Если режим production
включен, значение pipelines.clusterShutdown.delay
по умолчанию составляет 0 seconds
. Если режим development
включен, значение по умолчанию составляет 2 hours
.
Примечание.
Так как кластер Delta Live Tables автоматически завершает работу, если он не используется, ссылка на политику кластера, которая задает autotermination_minutes
в конфигурации кластера, приводит к ошибке.
Создание одного кластера узлов
Если в параметрах кластера задано значение num_workers
0, кластер создается в качестве кластера с одним узлом. Конфигурация кластера автомасштабирования и установка min_workers
в значение 0 и max_workers
в значение 0 создает кластер из одного узла.
Если вы настраиваете кластер автомасштабирования и задаете значение min_workers
равным 0, кластер не создается как кластер с одним узлом. У кластера всегда есть по крайней мере одна активная рабочую роль, пока он не будет остановлен.
Пример конфигурации кластера для создания одноузлового кластера в Delta Live Tables:
{
"clusters": [
{
"num_workers": 0
}
]
}