Справочник по свойствам DLT

Статья
03/05/2025

В этой статье содержится справочник по спецификации параметров DLT JSON и свойствам таблицы в Azure Databricks. Дополнительные сведения об использовании этих различных свойств и конфигураций см. в следующих статьях:

конфигурации конвейера DLT

Поля
`id` Тип: `string` Глобальный уникальный идентификатор для этого конвейера. Идентификатор назначается системой и не может быть изменен.
`name` Тип: `string` Удобное для пользователя имя этого конвейера. Имя можно использовать для идентификации заданий конвейера в пользовательском интерфейсе.
`configuration` Тип: `object` Необязательный список параметров для добавления в конфигурацию Spark кластера, который будет запускать конвейер. Эти параметры считываются средой выполнения DLT и доступны для запросов конвейера с помощью конфигурации Spark. Элементы должны быть отформатированы как пары `key:value`.
`libraries` Тип: `array of objects` Набор записных книжек, содержащих код конвейера и необходимые файлы.
`clusters` Тип: `array of objects` Массив спецификаций для кластеров для запуска конвейера. Если это не указано, конвейеры автоматически выбирают конфигурацию кластера по умолчанию для конвейера.
`development` Тип: `boolean` Флаг, указывающий, следует ли запускать конвейер в `development` или режим `production`. Значение по умолчанию — `true`
`notifications` Тип: `array of objects` Необязательный массив спецификаций для уведомлений по электронной почте, когда обновление конвейера завершается, завершается с ошибкой, подлежащей повторной попытке, завершается с ошибкой, не подлежащей повторной попытке, или поток завершается ошибкой.
`continuous` Тип: `boolean` Флаг, указывающий, следует ли непрерывно запускать конвейер. Значение по умолчанию — `false`.
`catalog` Тип: `string` Имя каталога по умолчанию для конвейера, где публикуются все наборы данных и метаданные для конвейера. Установка этого значения включает Unity Catalog для конвейера. Если не задано, конвейер публикуется в устаревшем хранилище метаданных Hive, используя расположение, указанное в `storage`. В устаревшем режиме публикации указывает каталог, содержащий целевую схему, в которой публикуются все наборы данных из текущего конвейера. См. LIVE схему (устаревшую версию).
`schema` Тип: `string` Имя схемы по умолчанию для конвейера, где по умолчанию публикуются все наборы данных и метаданные для конвейера. См. Установка целевого каталога исхемы.
`target` (устаревшая версия) Тип: `string` Имя целевой схемы, в которой публикуются все наборы данных, определенные в текущем конвейере. Установка `target` вместо `schema` настраивает конвейер для использования устаревшего режима публикации. См. схему LIVE (устаревшую версию).
`storage` (устаревшая версия) Тип: `string` Расположение в DBFS или облачном хранилище, где хранятся выходные данные и метаданные, необходимые для выполнения конвейера. Таблицы и метаданные хранятся в подкаталогах этой директории. Если параметр `storage` не указан, по умолчанию будет использоваться расположение в `dbfs:/pipelines/`. После создания конвейера невозможно изменить параметр `storage`.
`channel` Тип: `string` Используемая версия среды выполнения DLT. Поддерживаемые значения: - `preview` для тестирования вашего конвейера в связи с предстоящими изменениями версии среды выполнения. - `current` использовать текущую версию среды выполнения. Поле `channel` является необязательным. Значение по умолчанию — `current`. Databricks рекомендует использовать текущую версию среды выполнения для рабочих нагрузок.
`edition` Тип `string` Версия продукта DLT для запуска конвейера. Этот параметр позволяет выбрать лучший выпуск продукта на основе требований конвейера: - `CORE` для запуска рабочих нагрузок приема потоковой передачи. - `PRO` для выполнения рабочих нагрузок потокового ввода и захвата изменений данных (CDC). - `ADVANCED` для выполнения потоковой обработки, рабочих нагрузок CDC и рабочих нагрузок, требующих DLT для обеспечения ограничений качества данных. Поле `edition` является необязательным. Значение по умолчанию — `ADVANCED`.
`photon` Тип: `boolean` Флаг, указывающий, следует ли использовать Что такое Photon? для запуска конвейера. Photon — это модуль Azure Databricks с высокой производительностью Spark. Конвейеры с поддержкой технологии Photon оплачиваются по другому тарифу, чем конвейеры, не использующие Photon. Поле `photon` является необязательным. Значение по умолчанию — `false`.
`pipelines.maxFlowRetryAttempts` Тип: `int` Если во время обновления конвейера происходит сбой, поддающийся повторной попытке, это максимальное количество повторных запусков перед прекращением попыток обновления конвейера. По умолчанию: две попытки повтора. При возникновении повторного сбоя среда выполнения DLT пытается запустить поток три раза, включая исходную попытку.
`pipelines.numUpdateRetryAttempts` Тип: `int` Если во время обновления происходит сбой, который можно повторить, это максимальное количество попыток обновления перед тем, как обновление будет окончательно считаться неудачным. Повтор выполняется в качестве полного обновления. Этот параметр применяется только к конвейерам, работающим в рабочем режиме. Повторные попытки не предпринимаются, если ваш конвейер работает в режиме разработки или при запуске обновления `Validate`. По умолчанию: — пять для триггерных конвейеров. — Неограниченно для непрерывных конвейеров.

свойства таблицы DLT

Помимо свойств таблицы, поддерживаемых Delta Lake, можно задать следующие свойства таблицы.

Свойства таблицы
`pipelines.autoOptimize.managed` По умолчанию: `true` Включает или отключает автоматическую оптимизацию этой таблицы.
`pipelines.autoOptimize.zOrderCols` Значение по умолчанию: Нет Необязательная строка, содержащая список имен столбцов, разделенных запятыми, для упорядочивания этой таблицы по z-order. Например, `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` По умолчанию: `true` Определяет, разрешено ли полное обновление для этой таблицы.

Интервал срабатывания триггера конвейеров

Можно указать интервал срабатывания конвейера для всего конвейера DLT или также в рамках объявления набора данных. См. раздел Задать интервал триггера для непрерывных конвейеров.

`pipelines.trigger.interval`
Значение по умолчанию основано на типе потока: — пять секунд для потоковых запросов. — одна минута для завершения запросов, когда все входные данные являются источниками Delta. — Десять минут на выполнение запросов, когда некоторые источники данных могут быть не поддерживающими дельта-информацию. Значение — это число, а также единица времени. Ниже приведены допустимые единицы времени: - `second`, `seconds` - `minute`, `minutes` - `hour`, `hours` - `day`, `days` При определении значения можно использовать единицу сингулярного или множественного числа, например: - `{"pipelines.trigger.interval" : "1 hour"}` - `{"pipelines.trigger.interval" : "10 seconds"}` - `{"pipelines.trigger.interval" : "30 second"}` - `{"pipelines.trigger.interval" : "1 minute"}` - `{"pipelines.trigger.interval" : "10 minutes"}` - `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Значение по умолчанию основано на типе потока:

— пять секунд для потоковых запросов.
— одна минута для завершения запросов, когда все входные данные являются источниками Delta.
— Десять минут на выполнение запросов, когда некоторые источники данных могут быть не поддерживающими дельта-информацию.

Значение — это число, а также единица времени. Ниже приведены допустимые единицы времени:

- second, seconds
- minute, minutes
- hour, hours
- day, days

При определении значения можно использовать единицу сингулярного или множественного числа, например:

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

атрибуты кластера, которые не могут быть настроены пользователем

Так как DLT управляет жизненным циклом кластера, многие параметры кластера задаются DLT и не могут быть вручную настроены пользователями в конфигурации конвейера или в политике кластера, используемой конвейером. В следующей таблице перечислены эти параметры и почему они не могут быть установлены вручную.

Поля
`cluster_name` DLT задает имена кластеров, используемых для выполнения обновлений конвейера. Эти имена нельзя переопределить.
`data_security_mode` `access_mode` Эти значения автоматически задаются системой.
`spark_version` Кластеры DLT выполняются в пользовательской версии Databricks Runtime, которая постоянно обновляется, чтобы включить последние функции. Версия Spark связана с версией Databricks Runtime и не может быть переопределена.
`autotermination_minutes` Так как DLT управляет автоматическим завершением кластера и логикой повторного использования, время автоматического завершения кластера не может быть переопределено.
`runtime_engine` Хотя вы можете управлять этим полем, включив Photon для конвейера, нельзя задать это значение напрямую.
`effective_spark_version` Это значение автоматически устанавливается системой.
`cluster_source` Это поле задается системой и доступно только для чтения.
`docker_image` Так как DLT управляет жизненным циклом кластера, нельзя использовать пользовательский контейнер с кластерами конвейеров.
`workload_type` Это значение задается системой и не может быть переопределено.

Поделиться через

Справочник по свойствам DLT

конфигурации конвейера DLT

свойства таблицы DLT

Интервал срабатывания триггера конвейеров

атрибуты кластера, которые не могут быть настроены пользователем

Обратная связь

Дополнительные ресурсы