Настройка вычислений для конвейера разностных динамических таблиц
В этой статье содержатся инструкции и рекомендации по настройке пользовательских параметров вычислений для конвейеров Delta Live Tables.
Бессерверные конвейеры не предоставляют параметры конфигурации вычислений. См. статью "Настройка конвейера бессерверных динамических таблиц Delta Live Tables".
Выбор политики кластера
Пользователи должны иметь разрешение на развертывание вычислений для настройки и обновления конвейеров Delta Live Tables. Администраторы рабочей области могут настроить политики кластера для предоставления пользователям доступа к вычислительным ресурсам для разностных динамических таблиц. См. раздел "Определение ограничений" для вычислений конвейера Delta Live Tables.
Примечание.
Политики кластера являются необязательными. Обратитесь к администратору рабочей области, если у вас отсутствуют привилегии вычислений, необходимые для разностных динамических таблиц.
Чтобы убедиться, что значения политики кластера по умолчанию применяются правильно, задайте
apply_policy_default_values
true
значение в конфигурациях кластера в конфигурации конвейера:{ "clusters": [ { "label": "default", "policy_id": "<policy-id>", "apply_policy_default_values": true } ] }
Настройка тегов кластера
С помощью тегов кластера можно выполнять мониторинг использования кластеров конвейеров. Добавьте теги кластера в пользовательский интерфейс разностных динамических таблиц при создании или изменении конвейера или редактировании параметров JSON для кластеров конвейеров.
Выбор типов экземпляров для запуска конвейера
По умолчанию разностные динамические таблицы выбирают типы экземпляров для драйверов и рабочих узлов конвейера. При необходимости можно настроить типы экземпляров.
Например, выберите типы экземпляров, чтобы повысить производительность конвейера или устранить проблемы с памятью при запуске конвейера. Можно настроить типы экземпляров при создании или изменении конвейера с помощью REST API или в пользовательском интерфейсе Delta Live Tables.
Чтобы настроить типы экземпляров при создании или изменении конвейера в пользовательском интерфейсе разностных динамических таблиц:
- Нажмите кнопку Параметры .
- В разделе "Дополнительно" параметров конвейера в раскрывающихся меню "Рабочий тип" и "Драйвер" выберите типы экземпляров для конвейера.
Расширенные конфигурации вычислений
Примечание.
Так как вычислительные ресурсы полностью управляются для бессерверных конвейеров DLT, параметры вычислений недоступны при выборе бессерверного конвейера.
Каждый конвейер разностных динамических таблиц имеет два связанных кластера:
- Кластер
updates
обрабатывает обновления конвейера. - Кластер
maintenance
выполняет задачи ежедневного обслуживания.
Параметры вычислений, указанные с помощью пользовательского интерфейса конфигурации конвейера рабочей области, применяются как к кластерам обновления, так и к кластерам обслуживания. Чтобы изменить эти параметры независимо, необходимо изменить конфигурацию JSON.
Конфигурация этих кластеров определяется атрибутом, clusters
указанным в параметрах конвейера.
С помощью меток кластера можно добавить параметры вычислений, которые применяются только к определенному типу кластера. При настройке кластеров конвейеров можно использовать три метки:
Примечание.
Параметр метки кластера может быть опущен, если определить только одну конфигурацию кластера. Метка default
применяется к конфигурациям кластера, если не указан параметр метки. Параметр метки кластера требуется только в том случае, если необходимо настроить параметры для разных типов кластеров.
- Метка
default
определяет параметры вычисленийupdates
как для кластеров, так иmaintenance
для кластеров. Применение одинаковых параметров к обоим кластерам повышает надежность обслуживания, обеспечивая применение необходимых конфигураций, таких как учетные данные доступа к данным для расположения хранилища, применяются к кластеру обслуживания. - Метка
maintenance
определяет параметры вычислений, которые применяются только к кластеруmaintenance
. Вы также можете использоватьmaintenance
метку для переопределения параметров, настроенныхdefault
меткой. - Метка
updates
определяет параметры, которые применяются только к кластеруupdates
. Используйте его для настройки параметров, которые не должны применяться к кластеруmaintenance
.
Параметры, определенные с помощью default
меток, updates
объединяются для создания окончательной конфигурации кластера updates
. Если один и тот же параметр определен с помощью обоих default
updates
и меток, параметр, определенный с меткой, переопределяет параметр, определенный updates
меткой default
.
В следующем примере определяется параметр конфигурации Spark, добавляемый только в конфигурацию кластера updates
:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
Delta Live Tables имеет аналогичные параметры для параметров кластера, как и другие вычислительные ресурсы в Azure Databricks. Как и другие параметры конвейера, можно изменить конфигурацию JSON для кластеров, чтобы указать параметры, которые отсутствуют в пользовательском интерфейсе. См. раздел " Вычисления".
Примечание.
Так как среда выполнения Delta Live Tables управляет жизненным циклом кластеров конвейеров и запускает пользовательскую версию Databricks Runtime, вы не можете вручную задать некоторые параметры кластера в конфигурации конвейера, например версию Spark или имена кластеров. См . атрибуты кластера, которые не являются пользовательскими наборами.
Настройка типов экземпляров для кластеров обновления и обслуживания
Чтобы настроить типы экземпляров в параметрах JSON конвейера, нажмите кнопку JSON и введите конфигурации типов экземпляра в конфигурации кластера:
Примечание.
Чтобы избежать назначения ненужных ресурсов maintenance
кластеру, в этом примере метка используется updates
для задания типов экземпляров только updates
для кластера. Чтобы назначить типы экземпляров обоим updates
maintenance
кластерам, используйте default
метку или опустите параметр метки. Метка default
применяется к конфигурациям кластера конвейера, если не указан параметр метки. Дополнительные конфигурации вычислений см. в разделе "Дополнительные конфигурации вычислений".
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"..." : "..."
}
]
}
Задержка завершения работы вычислений
Для управления поведением завершения работы кластера можно использовать режим разработки или рабочей среды или использовать pipelines.clusterShutdown.delay
параметр в конфигурации конвейера. В следующем примере значение pipelines.clusterShutdown.delay
устанавливается равным 60 секундам:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Если режим production
включен, значение pipelines.clusterShutdown.delay
по умолчанию составляет 0 seconds
. Если режим development
включен, значение по умолчанию составляет 2 hours
.
Примечание.
Так как кластер Delta Live Tables автоматически завершает работу, если он не используется, ссылка на политику кластера, которая задает autotermination_minutes
в конфигурации кластера, приводит к ошибке.
Создание кластера с одним узлом
Если для num_workers
задано значение 0 в параметрах кластера, кластер будет создан как кластер с одним узлом. Настройка кластера автомасштабирования и настройки min_workers
0 и max_workers
0 создает кластер с одним узлом.
Если вы настраиваете кластер автомасштабирования и задаете значение только min_workers
0, кластер не создается как кластер с одним узлом. У кластера всегда есть по крайней мере одна активная рабочую роль, пока он не будет остановлен.
Пример конфигурации кластера для создания кластера с одним узлом в Delta Live Tables:
{
"clusters": [
{
"num_workers": 0
}
]
}