다음을 통해 공유


Delta Live Tables 속성 참조

이 문서에서는 Azure Databricks의 Delta Live Tables JSON 설정 사양 및 table 속성에 대한 참조를 제공합니다. 이러한 다양한 속성 및 구성 사용에 대한 자세한 내용은 다음 문서를 참조하세요.

Delta Live Tables 파이프라인 구성

필드
id

유형: string

이 파이프라인에 대한 전역적으로 고유한 identifier. identifier 시스템에 의해 할당되며 변경할 수 없습니다.
name

유형: string

이 파이프라인에 대한 사용자 식별 이름입니다. 이 이름은 UI에서 파이프라인 작업을 식별하는 데 사용할 수 있습니다.
storage

유형: string

파이프라인 실행에 필요한 출력 데이터 및 메타데이터 where은 DBFS 또는 클라우드 스토리지의 특정 위치에 저장됩니다. Tables 및 메타데이터는 이 위치의 하위 디렉터리에 저장됩니다.

storage 설정을 지정하지 않으면 시스템의 기본 위치는 dbfs:/pipelines/로 지정됩니다.

파이프라인을 만든 후에는 storage 설정을 변경할 수 없습니다.
configuration

유형: object

클러스터의 Spark 구성에 추가할 수 있는 선택적 list 설정입니다. 이 설정은 파이프라인 실행에 사용할 클러스터에 적용됩니다. 이러한 설정은 Delta Live Tables 런타임에서 읽고 Spark 구성을 통해 파이프라인 쿼리에 사용할 수 있습니다.

요소는 key:value 쌍으로 형식을 지정해야 합니다.
libraries

유형: array of objects

파이프라인 코드 및 필수 아티팩트가 포함된 Notebook 배열입니다.
clusters

유형: array of objects

파이프라인을 실행할 클러스터의 사양 배열입니다.

이 구성을 지정하지 않으면 파이프라인은 파이프라인에 대한 기본 클러스터 구성을 자동으로 select.
development

유형: boolean

파이프라인을
development 또는 production 모드에서 실행할지 여부를 나타내는 플래그.

기본값은 true입니다.
notifications

유형: array of objects

이메일 알림용 선택적 사양 배열: 파이프라인 update가 완료될 때, 다시 시도할 수 있는 오류로 실패할 때, 다시 시도할 수 없는 오류로 실패할 때, 흐름이 실패할 때.
continuous

유형: boolean

파이프라인을 계속 실행할지 여부를 나타내는 플래그입니다.

기본값은 false입니다.
target

유형: string

파이프라인 출력 데이터를 유지하기 위한 데이터베이스의 이름입니다. target 설정을 구성하면 Azure Databricks UI에서 파이프라인 출력 데이터를 보고 쿼리할 수 있습니다.
channel

유형: string

사용할 Delta Live Tables 런타임의 버전입니다. 지원되는 values는 다음과 같습니다.

- preview: 런타임 버전에 대한 예정된 변경 내용으로 파이프라인을 테스트합니다.
- current: 현재 런타임 버전을 사용합니다.

channel 필드는 선택 사항입니다. 기본값
current. Databricks에서는 프로덕션 워크로드에 현재 런타임 버전의 사용을 권장합니다.
edition

string 입력

파이프라인을 실행하기 위한 Delta Live Tables 제품 에디션입니다. 이 설정을 사용하면 파이프라인의 요구 사항에 따라 최상의 제품 버전을 선택할 수 있습니다.

- CORE: 스트리밍 수집 워크로드를 실행합니다.
- PRO: 스트리밍 수집을 실행하고 CDC(변경 데이터 캡처) 워크로드를 실행합니다.
데이터 품질 제약 조건을 적용하기 위해 Delta Live Tables 규칙을 사용하는 스트리밍 수집 워크로드, CDC 워크로드 및 기타 워크로드를 실행하는 - ADVANCED.

edition 필드는 선택 사항입니다. 기본값
ADVANCED.
photon

유형: boolean

Photon이란?을 사용하여 파이프라인을 실행할지 여부를 나타내는 플래그입니다. Photon은 Azure Databricks 고성능 Spark 엔진입니다. Photon 사용 파이프라인은 Photon이 아닌 파이프라인과 다른 비율로 청구됩니다.

photon 필드는 선택 사항입니다. 기본값은 false입니다.
pipelines.maxFlowRetryAttempts

유형: int

파이프라인 update중에 다시 시도 가능한 오류가 발생하는 경우 파이프라인 update 실패하기 전에 흐름을 다시 시도하는 최대 횟수입니다.

기본값: 두 번의 다시 시도. 다시 시도 가능한 오류가 발생하면 Delta Live Tables 런타임은 원래 시도를 포함하여 흐름을 세 번 실행하려고 시도합니다.
pipelines.numUpdateRetryAttempts

유형: int

만약 update중에 다시 시도할 수 있는 오류가 발생하면, update가 영구적으로 실패하기 전에 update을 다시 시도하는 최대 횟수입니다. 재시도는 전체적으로 update로 실행됩니다.

이 매개 변수는 프로덕션 모드에서 실행되는 파이프라인에만 적용됩니다. 파이프라인이 개발 모드로 실행되거나 Validateupdate을 실행하는 경우 재시도가 수행되지 않습니다.

기본값:

- 트리거된 파이프라인의 경우 5개입니다.
- 연속 파이프라인에 대해 무제한입니다.

Delta Live Tablestable 속성

Delta Lake가 지원하는 table 속성 외에도 다음 table 속성을 set할 수 있습니다.

Table 속성
pipelines.autoOptimize.managed

기본값: true

이 table자동으로 예약된 최적화를 사용하거나 사용하지 않도록 설정합니다.
pipelines.autoOptimize.zOrderCols

기본값: None

선택적으로 쉼표로 구분된 column 이름의 list을 포함하는 문자열로, 이 table의 z-순서를 지정합니다. 예를 들어 pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

기본값: true

이 table에 대해 전체 refresh이 허용되는지를 제어합니다.

파이프라인 트리거 간격

전체 Delta Live Tables 파이프라인 또는 데이터 세트 선언의 일부로 파이프라인 트리거 간격을 지정할 수 있습니다. 연속 파이프라인의 트리거 간격 을 확인하세요.

pipelines.trigger.interval
기본값은 흐름 유형에 따라 달라집니다.

- 스트리밍 쿼리의 경우 5초입니다.
- 모든 입력 데이터가 Delta 소스에서 온 경우 전체 쿼리에 1분이 소요됩니다.
- 일부 데이터 원본이 Delta가 아닌 경우 전체 쿼리에 10분이 소요됩니다.

값은 숫자에 시간 단위를 더한 값입니다. 다음은 유효한 시간 단위입니다.

- second, seconds
- minute, minutes
- hour, hours
- day, days

값을 정의할 때 단수 단위 또는 복수 단위를 사용할 수 있습니다. 예를 들면 다음과 같습니다.

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

사용자가 설정할 수 없는 클러스터 특성

Delta Live Tables 클러스터 수명 주기를 관리하므로 많은 클러스터 설정은 Delta Live Tablesset 파이프라인 구성 또는 파이프라인에서 사용하는 클러스터 정책에서 사용자가 수동으로 구성할 수 없습니다. 다음 table은 이러한 설정과 수동으로 set할 수 없는 이유를 나열합니다.

필드
cluster_name

Delta Live Tables 파이프라인 업데이트를 실행하는 데 사용되는 클러스터의 이름을 설정합니다. 이 이름은 재정의할 수 없습니다.
data_security_mode
access_mode

시스템에서 이러한 values이(가) 자동으로 set.
spark_version

Delta Live Tables 클러스터는 최신 기능을 포함하도록 지속적으로 업데이트되는 사용자 지정 버전의 Databricks Runtime에서 실행됩니다. Spark 버전은 Databricks 런타임 버전과 함께 번들로 제공되며, 재정의할 수 없습니다.
autotermination_minutes

Delta Live Tables 클러스터 자동 종료 및 재사용 논리를 관리하므로 클러스터 자동 종료 시간을 재정의할 수 없습니다.
runtime_engine

파이프라인에 Photon을 사용하도록 설정하여 해당 필드를 제어할 수 있지만 이 값을 직접 set할 수는 없습니다.
effective_spark_version

이 값은 시스템에서 자동으로 설정된 set입니다.
cluster_source

이 필드는 시스템에 의해 set 상태로 설정되며 읽기 전용입니다.
docker_image

Delta Live Tables 클러스터 수명 주기를 관리하므로 파이프라인 클러스터에서 사용자 지정 컨테이너를 사용할 수 없습니다.
workload_type

이 값 set은 시스템에 의해 설정되며 재정의할 수 없습니다.