Справочник по свойствам Delta Live Tables
В этой статье приведена ссылка на спецификацию параметров JSON Delta Live Table и свойства таблицы в Azure Databricks. Дополнительные сведения об использовании этих различных свойств и конфигураций см. в следующих статьях:
конфигурации конвейера Delta Live Tables
Поля |
---|
id Тип: string Глобальный уникальный идентификатор для этого конвейера. Идентификатор назначается системой и не может быть изменен. |
name Тип: string Понятное имя для этого конвейера. Имя можно использовать для идентификации заданий конвейера в пользовательском интерфейсе. |
storage Тип: string Расположение в DBFS или облачном хранилище, где хранятся выходные данные и метаданные, необходимые для выполнения конвейера. Таблицы и метаданные хранятся в подкаталогах этого местоположения. Если параметр storage не указан, по умолчанию система использует папку dbfs:/pipelines/ .Параметр storage нельзя изменить после создания конвейера. |
configuration Тип: object Необязательный список параметров для добавления в конфигурацию Spark кластера, который будет запускать конвейер. Эти параметры считываются средой выполнения Delta Live Tables и доступны для конвейерных запросов с помощью конфигурации Spark. Элементы должны быть отформатированы как пары key:value . |
libraries Тип: array of objects Массив записных книжек, содержащих код конвейера и необходимые артефакты. |
clusters Тип: array of objects Массив спецификаций кластеров для запуска конвейера. Если это не указано, конвейеры автоматически выбирают конфигурацию кластера по умолчанию для конвейера. |
development Тип: boolean Флаг, указывающий, следует ли запускать конвейер в development или production режим.Значение по умолчанию — true . |
notifications Тип: array of objects Необязательный массив спецификаций для уведомлений по электронной почте, когда обновление конвейера завершается, завершается с повторяемой ошибкой, завершается с неповторяемой ошибкой или заканчивается ошибкой потока. |
continuous Тип: boolean Флаг, указывающий, должен ли конвейер работать непрерывно. Значение по умолчанию — false . |
target Тип: string Имя базы данных для сохранения выходных данных конвейера. Настройка параметра target позволяет просматривать выходные данные конвейера и выполнять запросы к ним из пользовательского интерфейса Azure Databricks. |
channel Тип: string Используемая версия среды выполнения Delta Live Tables. Поддерживаемые значения: - preview для тестирования конвейера с предстоящим изменениями для версии среды выполнения.- current для использования текущей версии среды выполнения.Поле channel является необязательным. Значение по умолчанию —current . Databricks рекомендует использовать текущую версию среды выполнения для рабочих нагрузок. |
edition Введите string .Вариант продукта Delta Live Tables для запуска конвейера. Этот параметр позволяет выбрать тот выпуск, который наилучшим образом соответствует требованиям конвейера: - CORE для выполнения рабочих нагрузок приема потоковой передачи.- PRO для выполнения рабочих нагрузок приема потоковой передачи и отслеживания измененных данных (CDC).- ADVANCED для выполнения загрузки потоковых рабочих нагрузок, рабочих нагрузок CDC, и рабочих нагрузок, для которых необходимы Delta Live Tables для обеспечения выполнения ограничений качества данных.Поле edition является необязательным. Значение по умолчанию —ADVANCED . |
photon Тип: boolean Флаг, указывающий, следует ли использовать Photon? для запуска конвейера. Photon — это высокопроизводительный модуль Spark в Azure Databricks. Конвейеры с поддержкой фото оплачиваются по сравнению с конвейерами, отличными от фотона. Поле photon является необязательным. Значение по умолчанию — false . |
pipelines.maxFlowRetryAttempts Тип: int Если во время обновления конвейера возникает ошибка, допускающая повторную попытку, это максимальное количество попыток повторения потока перед завершением обновления конвейера. По умолчанию: две попытки повтора. При возникновении повторного сбоя среда выполнения Delta Live Tables пытается запустить поток три раза, включая исходную попытку. |
pipelines.numUpdateRetryAttempts Тип: int Если во время обновления возникает повторный сбой, это максимальное количество раз повторения обновления до окончательного сбоя обновления. Повтор выполняется в качестве полного обновления. Этот параметр применяется только к конвейерам, работающим в рабочем режиме. Повторные попытки выполнения не предпринимаются, если конвейер работает в режиме разработки или при запуске обновления Validate .По умолчанию: — пять для триггерных конвейеров. — Неограниченно для непрерывных конвейеров. |
Свойства таблицы Delta Live Tables
Помимо свойств таблицы, поддерживаемых Delta Lake, можно задать следующие свойства таблицы.
Свойства таблицы |
---|
pipelines.autoOptimize.managed По умолчанию: true Включает или отключает автоматическую оптимизацию этой таблицы. |
pipelines.autoOptimize.zOrderCols По умолчанию: нет Необязательная строка, содержащая разделенный запятыми список названий столбцов, по которым следует упорядочить эту таблицу методом Z-порядка. Например: pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed По умолчанию: true Определяет, разрешено ли полное обновление для этой таблицы. |
Интервал срабатывания конвейеров
Можно указать интервал срабатывания триггера для всего конвейера Delta Live Tables или в рамках объявления набора данных. См. раздел Задать интервал триггера для непрерывных конвейеров.
pipelines.trigger.interval |
---|
Значение по умолчанию определяется типом потока: — пять секунд для потоковых запросов. — одна минута для завершения запросов, когда все входные данные являются источниками Delta. — Десять минут завершения запросов, когда некоторые источники данных могут быть не разностными. Значение является числом с добавлением единицы времени. Ниже приведены допустимые единицы времени: - second , seconds - minute , minutes - hour , hours - day , days При определении значения можно использовать единицы в единственном или множественном числе, например: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
Атрибуты кластера, которые не являются пользовательскими наборами
Поскольку Delta Live Tables управляет жизненным циклом кластера, многие параметры кластера задаются Delta Live Tables и не могут быть вручную настроены пользователями ни в конфигурации конвейера, ни в политике кластера, используемой конвейером. В следующей таблице перечислены эти параметры и почему они не могут быть установлены вручную.
Поля |
---|
cluster_name Delta Live Tables задают имена кластеров, используемых для обновления данных в конвейере. Эти имена нельзя переопределить. |
data_security_mode access_mode Эти значения автоматически задаются системой. |
spark_version Кластеры Delta Live Tables выполняются в пользовательской версии Databricks Runtime, которая постоянно обновляется, чтобы включить последние функции. Версия Spark связана с версией Databricks Runtime и не может быть переопределена. |
autotermination_minutes Так как Delta Live Tables управляет автоматическим завершением кластера и логикой повторного использования, время автоматического завершения кластера не может быть переопределено. |
runtime_engine Хотя вы можете управлять этим полем, включив Photon для конвейера, нельзя задать это значение напрямую. |
effective_spark_version Это значение автоматически устанавливается системой. |
cluster_source Это поле задается системой и доступно только для чтения. |
docker_image Так как Delta Live Tables управляет жизненным циклом кластера, вы не можете использовать пользовательский контейнер с кластерами конвейеров. |
workload_type Это значение задается системой и не может быть переопределено. |