Поделиться через


Справочник по свойствам Delta Live Tables

В этой статье приведена ссылка на спецификацию параметров JSON Delta Live Table и свойства таблицы в Azure Databricks. Дополнительные сведения об использовании этих различных свойств и конфигураций см. в следующих статьях:

конфигурации конвейера Delta Live Tables

Поля
id

Тип: string

Глобальный уникальный идентификатор для этого конвейера. Идентификатор назначается системой и не может быть изменен.
name

Тип: string

Понятное имя для этого конвейера. Имя можно использовать для идентификации заданий конвейера в пользовательском интерфейсе.
storage

Тип: string

Расположение в DBFS или облачном хранилище, где хранятся выходные данные и метаданные, необходимые для выполнения конвейера. Таблицы и метаданные хранятся в подкаталогах этого местоположения.

Если параметр storage не указан, по умолчанию система использует папку dbfs:/pipelines/.

Параметр storage нельзя изменить после создания конвейера.
configuration

Тип: object

Необязательный список параметров для добавления в конфигурацию Spark кластера, который будет запускать конвейер. Эти параметры считываются средой выполнения Delta Live Tables и доступны для конвейерных запросов с помощью конфигурации Spark.

Элементы должны быть отформатированы как пары key:value.
libraries

Тип: array of objects

Массив записных книжек, содержащих код конвейера и необходимые артефакты.
clusters

Тип: array of objects

Массив спецификаций кластеров для запуска конвейера.

Если это не указано, конвейеры автоматически выбирают конфигурацию кластера по умолчанию для конвейера.
development

Тип: boolean

Флаг, указывающий, следует ли запускать конвейер в
development или production режим.

Значение по умолчанию — true.
notifications

Тип: array of objects

Необязательный массив спецификаций для уведомлений по электронной почте, когда обновление конвейера завершается, завершается с повторяемой ошибкой, завершается с неповторяемой ошибкой или заканчивается ошибкой потока.
continuous

Тип: boolean

Флаг, указывающий, должен ли конвейер работать непрерывно.

Значение по умолчанию — false.
target

Тип: string

Имя базы данных для сохранения выходных данных конвейера. Настройка параметра target позволяет просматривать выходные данные конвейера и выполнять запросы к ним из пользовательского интерфейса Azure Databricks.
channel

Тип: string

Используемая версия среды выполнения Delta Live Tables. Поддерживаемые значения:

- preview для тестирования конвейера с предстоящим изменениями для версии среды выполнения.
- current для использования текущей версии среды выполнения.

Поле channel является необязательным. Значение по умолчанию —
current. Databricks рекомендует использовать текущую версию среды выполнения для рабочих нагрузок.
edition

Введите string.

Вариант продукта Delta Live Tables для запуска конвейера. Этот параметр позволяет выбрать тот выпуск, который наилучшим образом соответствует требованиям конвейера:

- CORE для выполнения рабочих нагрузок приема потоковой передачи.
- PRO для выполнения рабочих нагрузок приема потоковой передачи и отслеживания измененных данных (CDC).
- ADVANCED для выполнения загрузки потоковых рабочих нагрузок, рабочих нагрузок CDC, и рабочих нагрузок, для которых необходимы Delta Live Tables для обеспечения выполнения ограничений качества данных.

Поле edition является необязательным. Значение по умолчанию —
ADVANCED.
photon

Тип: boolean

Флаг, указывающий, следует ли использовать Photon? для запуска конвейера. Photon — это высокопроизводительный модуль Spark в Azure Databricks. Конвейеры с поддержкой фото оплачиваются по сравнению с конвейерами, отличными от фотона.

Поле photon является необязательным. Значение по умолчанию — false.
pipelines.maxFlowRetryAttempts

Тип: int

Если во время обновления конвейера возникает ошибка, допускающая повторную попытку, это максимальное количество попыток повторения потока перед завершением обновления конвейера.

По умолчанию: две попытки повтора. При возникновении повторного сбоя среда выполнения Delta Live Tables пытается запустить поток три раза, включая исходную попытку.
pipelines.numUpdateRetryAttempts

Тип: int

Если во время обновления возникает повторный сбой, это максимальное количество раз повторения обновления до окончательного сбоя обновления. Повтор выполняется в качестве полного обновления.

Этот параметр применяется только к конвейерам, работающим в рабочем режиме. Повторные попытки выполнения не предпринимаются, если конвейер работает в режиме разработки или при запуске обновления Validate.

По умолчанию:

— пять для триггерных конвейеров.
— Неограниченно для непрерывных конвейеров.

Свойства таблицы Delta Live Tables

Помимо свойств таблицы, поддерживаемых Delta Lake, можно задать следующие свойства таблицы.

Свойства таблицы
pipelines.autoOptimize.managed

По умолчанию: true

Включает или отключает автоматическую оптимизацию этой таблицы.
pipelines.autoOptimize.zOrderCols

По умолчанию: нет

Необязательная строка, содержащая разделенный запятыми список названий столбцов, по которым следует упорядочить эту таблицу методом Z-порядка. Например: pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

По умолчанию: true

Определяет, разрешено ли полное обновление для этой таблицы.

Интервал срабатывания конвейеров

Можно указать интервал срабатывания триггера для всего конвейера Delta Live Tables или в рамках объявления набора данных. См. раздел Задать интервал триггера для непрерывных конвейеров.

pipelines.trigger.interval
Значение по умолчанию определяется типом потока:

— пять секунд для потоковых запросов.
— одна минута для завершения запросов, когда все входные данные являются источниками Delta.
— Десять минут завершения запросов, когда некоторые источники данных могут быть не разностными.

Значение является числом с добавлением единицы времени. Ниже приведены допустимые единицы времени:

- second, seconds
- minute, minutes
- hour, hours
- day, days

При определении значения можно использовать единицы в единственном или множественном числе, например:

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Атрибуты кластера, которые не являются пользовательскими наборами

Поскольку Delta Live Tables управляет жизненным циклом кластера, многие параметры кластера задаются Delta Live Tables и не могут быть вручную настроены пользователями ни в конфигурации конвейера, ни в политике кластера, используемой конвейером. В следующей таблице перечислены эти параметры и почему они не могут быть установлены вручную.

Поля
cluster_name

Delta Live Tables задают имена кластеров, используемых для обновления данных в конвейере. Эти имена нельзя переопределить.
data_security_mode
access_mode

Эти значения автоматически задаются системой.
spark_version

Кластеры Delta Live Tables выполняются в пользовательской версии Databricks Runtime, которая постоянно обновляется, чтобы включить последние функции. Версия Spark связана с версией Databricks Runtime и не может быть переопределена.
autotermination_minutes

Так как Delta Live Tables управляет автоматическим завершением кластера и логикой повторного использования, время автоматического завершения кластера не может быть переопределено.
runtime_engine

Хотя вы можете управлять этим полем, включив Photon для конвейера, нельзя задать это значение напрямую.
effective_spark_version

Это значение автоматически устанавливается системой.
cluster_source

Это поле задается системой и доступно только для чтения.
docker_image

Так как Delta Live Tables управляет жизненным циклом кластера, вы не можете использовать пользовательский контейнер с кластерами конвейеров.
workload_type

Это значение задается системой и не может быть переопределено.