Delta Live Tables 속성 참조
이 문서에서는 Azure Databricks의 Delta Live Tables JSON 설정 사양 및 table 속성에 대한 참조를 제공합니다. 이러한 다양한 속성 및 구성 사용에 대한 자세한 내용은 다음 문서를 참조하세요.
Delta Live Tables 파이프라인 구성
필드 |
---|
id 유형: string 이 파이프라인에 대한 전역적으로 고유한 identifier. identifier 시스템에 의해 할당되며 변경할 수 없습니다. |
name 유형: string 이 파이프라인에 대한 사용자 식별 이름입니다. 이 이름은 UI에서 파이프라인 작업을 식별하는 데 사용할 수 있습니다. |
storage 유형: string 파이프라인 실행에 필요한 출력 데이터 및 메타데이터 where은 DBFS 또는 클라우드 스토리지의 특정 위치에 저장됩니다. Tables 및 메타데이터는 이 위치의 하위 디렉터리에 저장됩니다. storage 설정을 지정하지 않으면 시스템의 기본 위치는 dbfs:/pipelines/ 로 지정됩니다.파이프라인을 만든 후에는 storage 설정을 변경할 수 없습니다. |
configuration 유형: object 클러스터의 Spark 구성에 추가할 수 있는 선택적 list 설정입니다. 이 설정은 파이프라인 실행에 사용할 클러스터에 적용됩니다. 이러한 설정은 Delta Live Tables 런타임에서 읽고 Spark 구성을 통해 파이프라인 쿼리에 사용할 수 있습니다. 요소는 key:value 쌍으로 형식을 지정해야 합니다. |
libraries 유형: array of objects 파이프라인 코드 및 필수 아티팩트가 포함된 Notebook 배열입니다. |
clusters 유형: array of objects 파이프라인을 실행할 클러스터의 사양 배열입니다. 이 구성을 지정하지 않으면 파이프라인은 파이프라인에 대한 기본 클러스터 구성을 자동으로 select. |
development 유형: boolean 파이프라인을 development 또는 production 모드에서 실행할지 여부를 나타내는 플래그.기본값은 true 입니다. |
notifications 유형: array of objects 이메일 알림용 선택적 사양 배열: 파이프라인 update가 완료될 때, 다시 시도할 수 있는 오류로 실패할 때, 다시 시도할 수 없는 오류로 실패할 때, 흐름이 실패할 때. |
continuous 유형: boolean 파이프라인을 계속 실행할지 여부를 나타내는 플래그입니다. 기본값은 false 입니다. |
target 유형: string 파이프라인 출력 데이터를 유지하기 위한 데이터베이스의 이름입니다. target 설정을 구성하면 Azure Databricks UI에서 파이프라인 출력 데이터를 보고 쿼리할 수 있습니다. |
channel 유형: string 사용할 Delta Live Tables 런타임의 버전입니다. 지원되는 values는 다음과 같습니다. - preview : 런타임 버전에 대한 예정된 변경 내용으로 파이프라인을 테스트합니다.- current : 현재 런타임 버전을 사용합니다.channel 필드는 선택 사항입니다. 기본값current . Databricks에서는 프로덕션 워크로드에 현재 런타임 버전의 사용을 권장합니다. |
edition string 입력파이프라인을 실행하기 위한 Delta Live Tables 제품 에디션입니다. 이 설정을 사용하면 파이프라인의 요구 사항에 따라 최상의 제품 버전을 선택할 수 있습니다. - CORE : 스트리밍 수집 워크로드를 실행합니다.- PRO : 스트리밍 수집을 실행하고 CDC(변경 데이터 캡처) 워크로드를 실행합니다.데이터 품질 제약 조건을 적용하기 위해 Delta Live Tables 규칙을 사용하는 스트리밍 수집 워크로드, CDC 워크로드 및 기타 워크로드를 실행하는 - ADVANCED .edition 필드는 선택 사항입니다. 기본값ADVANCED . |
photon 유형: boolean Photon이란?을 사용하여 파이프라인을 실행할지 여부를 나타내는 플래그입니다. Photon은 Azure Databricks 고성능 Spark 엔진입니다. Photon 사용 파이프라인은 Photon이 아닌 파이프라인과 다른 비율로 청구됩니다. photon 필드는 선택 사항입니다. 기본값은 false 입니다. |
pipelines.maxFlowRetryAttempts 유형: int 파이프라인 update중에 다시 시도 가능한 오류가 발생하는 경우 파이프라인 update 실패하기 전에 흐름을 다시 시도하는 최대 횟수입니다. 기본값: 두 번의 다시 시도. 다시 시도 가능한 오류가 발생하면 Delta Live Tables 런타임은 원래 시도를 포함하여 흐름을 세 번 실행하려고 시도합니다. |
pipelines.numUpdateRetryAttempts 유형: int 만약 update중에 다시 시도할 수 있는 오류가 발생하면, update가 영구적으로 실패하기 전에 update을 다시 시도하는 최대 횟수입니다. 재시도는 전체적으로 update로 실행됩니다. 이 매개 변수는 프로덕션 모드에서 실행되는 파이프라인에만 적용됩니다. 파이프라인이 개발 모드로 실행되거나 Validate update을 실행하는 경우 재시도가 수행되지 않습니다.기본값: - 트리거된 파이프라인의 경우 5개입니다. - 연속 파이프라인에 대해 무제한입니다. |
Delta Live Tablestable 속성
Delta Lake가 지원하는 table 속성 외에도 다음 table 속성을 set할 수 있습니다.
Table 속성 |
---|
pipelines.autoOptimize.managed 기본값: true 이 table자동으로 예약된 최적화를 사용하거나 사용하지 않도록 설정합니다. |
pipelines.autoOptimize.zOrderCols 기본값: None 선택적으로 쉼표로 구분된 column 이름의 list을 포함하는 문자열로, 이 table의 z-순서를 지정합니다. 예를 들어 pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed 기본값: true 이 table에 대해 전체 refresh이 허용되는지를 제어합니다. |
파이프라인 트리거 간격
전체 Delta Live Tables 파이프라인 또는 데이터 세트 선언의 일부로 파이프라인 트리거 간격을 지정할 수 있습니다. 연속 파이프라인의 트리거 간격
pipelines.trigger.interval |
---|
기본값은 흐름 유형에 따라 달라집니다. - 스트리밍 쿼리의 경우 5초입니다. - 모든 입력 데이터가 Delta 소스에서 온 경우 전체 쿼리에 1분이 소요됩니다. - 일부 데이터 원본이 Delta가 아닌 경우 전체 쿼리에 10분이 소요됩니다. 값은 숫자에 시간 단위를 더한 값입니다. 다음은 유효한 시간 단위입니다. - second , seconds - minute , minutes - hour , hours - day , days 값을 정의할 때 단수 단위 또는 복수 단위를 사용할 수 있습니다. 예를 들면 다음과 같습니다. - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
사용자가 설정할 수 없는 클러스터 특성
Delta Live Tables 클러스터 수명 주기를 관리하므로 많은 클러스터 설정은 Delta Live Tablesset 파이프라인 구성 또는 파이프라인에서 사용하는 클러스터 정책에서 사용자가 수동으로 구성할 수 없습니다. 다음 table은 이러한 설정과 수동으로 set할 수 없는 이유를 나열합니다.
필드 |
---|
cluster_name Delta Live Tables 파이프라인 업데이트를 실행하는 데 사용되는 클러스터의 이름을 설정합니다. 이 이름은 재정의할 수 없습니다. |
data_security_mode access_mode 시스템에서 이러한 values이(가) 자동으로 set. |
spark_version Delta Live Tables 클러스터는 최신 기능을 포함하도록 지속적으로 업데이트되는 사용자 지정 버전의 Databricks Runtime에서 실행됩니다. Spark 버전은 Databricks 런타임 버전과 함께 번들로 제공되며, 재정의할 수 없습니다. |
autotermination_minutes Delta Live Tables 클러스터 자동 종료 및 재사용 논리를 관리하므로 클러스터 자동 종료 시간을 재정의할 수 없습니다. |
runtime_engine 파이프라인에 Photon을 사용하도록 설정하여 해당 필드를 제어할 수 있지만 이 값을 직접 set할 수는 없습니다. |
effective_spark_version 이 값은 시스템에서 자동으로 설정된 set입니다. |
cluster_source 이 필드는 시스템에 의해 set 상태로 설정되며 읽기 전용입니다. |
docker_image Delta Live Tables 클러스터 수명 주기를 관리하므로 파이프라인 클러스터에서 사용자 지정 컨테이너를 사용할 수 없습니다. |
workload_type 이 값 set은 시스템에 의해 설정되며 재정의할 수 없습니다. |