다음을 통해 공유


Delta Live Tables 파이프라인에서 update을 실행하십시오.

이 문서에서는 파이프라인 업데이트를 설명하고 update트리거하는 방법에 대한 세부 정보를 제공합니다.

파이프라인 update이란 무엇인가요?

파이프라인을 만들고 실행할 준비가 되면 update시작합니다. 파이프라인 update은 다음을 수행합니다.

  • 올바른 구성으로 클러스터를 시작합니다.
  • 정의된 모든 tables 및 views 검색하고 잘못된 column 이름, 누락된 종속성 및 구문 오류와 같은 분석 오류를 확인합니다.
  • 사용 가능한 최신 데이터로 tables 및 views 만들거나 업데이트합니다.

을(를) 사용하여 update를 유효성 검사함으로써 tables가 만들어지거나 업데이트될 때까지 기다릴 필요 없이 파이프라인의 소스 코드에서 문제를 확인할 수 있습니다. 이 기능은 파이프라인을 개발하거나 테스트할 때 잘못된 table 또는 column 이름과 같은 파이프라인에서 오류를 빠르게 찾아 수정할 수 있기 때문에 유용합니다.

파이프라인 업데이트는 어떻게 트리거되는가?

다음 옵션 중 하나를 사용하여 파이프라인 업데이트를 시작합니다.

Update 트리거 세부 정보
수동 파이프라인 UI, 파이프라인 list, 또는 파이프라인에 연결된 노트북에서 파이프라인 업데이트를 수동으로 트리거할 수 있습니다. 파이프라인 수동으로 트리거하고 notebooksDelta Live 파이프라인을 개발 및 디버그하는 참조하세요.
예정됨 작업을 사용하여 파이프라인에 대한 업데이트를 예약할 수 있습니다. 작업에 대한 Delta Live 파이프라인 태스크를 참조하세요.
프로그래매틱 타사 도구, API 및 CLI를 사용하여 프로그래밍 방식으로 업데이트를 트리거할 수 있습니다. 워크플로의 Delta Live 파이프라인 실행 파이프라인 API를 참조하세요.

수동으로 파이프라인을 트리거 update

다음 옵션 중 하나를 사용하여 수동으로 파이프라인 update을 트리거합니다.

  • 파이프라인 세부 정보 페이지에서 Delta Live Tables 시작 아이콘 단추를 클릭합니다.
  • 파이프라인 list에서, 작업 column중에서 오른쪽 화살표 아이콘을(를) 클릭합니다.

참고 항목

수동으로 트리거된 파이프라인 업데이트의 기본 동작은 파이프라인에 정의된 모든 데이터 세트를 refresh하는 것입니다.

파이프라인 refresh 의미 체계

다음 table 기본 refresh 및 전체 refresh구체화된 views 및 스트리밍 tables 대한 동작을 설명합니다.

Update 형식 실체화된 뷰 의미 체계 스트리밍 table 의미 체계
Refresh(기본값) 정의 쿼리에 대한 현재 결과를 반영하도록 결과를 업데이트합니다. 스트리밍 tables 및 플로우에 정의되어 있는 논리를 통해 새 레코드를 처리합니다.
전체 refresh 정의 쿼리에 대한 현재 결과를 반영하도록 결과를 업데이트합니다. 스트리밍 tables데이터를 삭제하고, 흐름에서 상태 정보(검사점)를 제거하며, 데이터 원본의 모든 레코드를 다시 처리합니다.

기본적으로 파이프라인 refresh의 구체화된 모든 views 및 스트리밍 tables은 각각 update와 함께 사용됩니다. 필요에 따라 다음 기능을 사용하여 업데이트에서 tables 생략할 수 있습니다.

  • 대한 : 이 UI를 사용하여 하여 구체화된 및 스트리밍 을 추가한 다음 을 실행합니다. 선택한 에 대해 파이프라인 시작을 참조하세요.
  • Refresh 실패한 tables: 실패한 구체화된 views 및 스트리밍 tables, 그리고 다운스트림 종속성을 포함하여 update를 시작합니다. 실패한 에 대한 파이프라인 을 시작하려면 을 보십시오.

이러한 두 기능 모두 기본 refresh 의미 체계 또는 전체 refresh을 지원합니다. 필요에 따라 실패한 tables에 대한 refresh을 실행할 때 Selecttables를 사용하여 추가 tables를 제외할 수 있는 refresh 대화 상자를 사용할 수 있습니다.

전체 refresh사용해야 하나요?

Databricks는 필요한 경우에만 전체 새로 고침을 실행하는 것이 좋습니다. refresh가 완전할 경우 지정된 데이터 원본의 모든 레코드를 데이터 세트를 정의하는 논리를 통해 다시 처리합니다. 전체 refresh 완료하는 시간과 리소스는 원본 데이터의 크기와 상관 관계가 있습니다.

views이 구체화되면 기본값이나 전체 refresh을 사용하더라도 동일한 결과를 반환합니다. 스트리밍 tables과 함께 전체 refresh를 사용하면 모든 상태 처리 및 검사점 정보가 다시 설정되고, 입력 데이터를 더 이상 사용할 수 없는 경우 기록이 손실될 수 있습니다.

Databricks는 입력 데이터 원본에 table 또는 뷰의 원하는 상태를 다시 만드는 데 필요한 데이터가 포함된 경우에만 전체 refresh 권장합니다. 다음 시나리오를 고려하세요: where 입출력 원본 데이터가 더 이상 사용 가능하지 않으며, 전체 refresh을 실행한 결과입니다.

데이터 원본 입력 데이터가 없는 이유 전체 refresh의 결과
Kafka 짧은 보존 임계값 Kafka 원본에 더 이상 없는 레코드는 대상 table에서 삭제됩니다.
오브젝트 스토리지의 파일 수명 주기 정책 대상 table에서 더 이상 원본 디렉터리에 없는 데이터 파일은 제외됩니다.
table의 기록 준수를 위해 삭제됨 원본 table에 있는 레코드만 처리됩니다.

전체 새로 고침이 table 또는 보기에서 실행되지 않도록 하려면 table 속성 pipelines.reset.allowedfalseset. Delta Live Tablestable 속성참조하세요. refresh전체가 필요하지 않을 때, 추가 흐름을 사용하여 기존 스트리밍 table 데이터를 추가할 수도 있습니다.

선택한 tables에 대한 파이프라인 update 시작

필요에 따라 파이프라인에서 선택한 tables에 대해서만 데이터를 다시 처리할 수 있습니다. 예를 들어, 개발 중에는 단일 table만 변경하고 테스트 시간을 줄이고 싶거나, 파이프라인 update이 실패하고 실패한 tables만 refresh하고 싶습니다.

참고 항목

트리거된 파이프라인에서만 선택적 refresh 사용할 수 있습니다.

선택한 tables만 새로 고치려면, update을 시작시킨 후 파이프라인 세부 정보 페이지에서 다음을 수행합니다.

  1. Select tables을(를) refresh위해 클릭합니다. 대화 상자에 가 나타납니다.

    단추에 대한 표시되지 않으면 파이프라인 세부 정보 페이지에 최신 표시되고 완료되었는지 확인합니다. 최신 에 대한 DAG가 표시되지 않는 경우, 예를 들어 이 실패했기 때문에, 단추에 대한 가 표시되지 않습니다.

  2. tables refresh select 각 table클릭합니다. 선택한 tables는 강조 표시되며 레이블이 지정됩니다. update에서 table를 remove하려면 table을 다시 클릭합니다.

  3. 을 선택하고 을 클릭합니다.

    참고 항목

    Refresh 선택 단추는 선택한 tables 수를 괄호로 표시합니다.

선택한 tables에 대해 이미 수집된 데이터를 다시 처리하려면, Refresh 선택 버튼 옆에 있는 Blue Down Caret을 클릭한 다음, 전체 Refresh 선택을 클릭하십시오.

실패한 tables을 위한 파이프라인 update 시작

파이프라인 그래프에서 하나 이상의 tables 오류로 인해 파이프라인 update이(가) 실패하는 경우, 실패한 tables 및 모든 다운스트림 종속성만으로 구성된 update를 시작할 수 있습니다.

참고 항목

실패한 table에 의존하더라도 제외된 tables는 새로 고쳐지지 않습니다.

실패한 tablesupdate 위해 파이프라인 세부 정보 페이지에서 실패한 Refreshtables클릭합니다.

tables중 선택된 실패 항목을 update로:

  1. 실패한 버튼 옆에 있는 버튼을 아래로 누르고, 을 위해 을 클릭합니다. Select tables이(가) refresh 대화 상자에 나타납니다.

  2. tables refresh select 각 table클릭합니다. 선택한 tables가 강조 표시되고 레이블이 설정됩니다. update에서 table을 remove 한 다음, table을 다시 클릭합니다.

  3. Refresh 선택클릭합니다.

    참고 항목

    Refresh 선택 단추는 선택한 tables 수를 괄호로 표시합니다.

선택한 tables에 대해 이미 수집된 데이터를 다시 처리하려면 Refresh 선택 버튼 옆에 있는 Blue Down Caret을 클릭한 다음, 전체 Refresh 선택을 클릭하세요.

tables이(가) update에 도달할 때까지 기다리지 않고 파이프라인의 오류를 확인합니다.

Important

Delta Live TablesValidateupdate 기능은 공개 미리 보기있습니다.

전체 update실행하지 않고 파이프라인의 소스 코드가 유효한지 확인하려면 유효성 검사를 사용합니다. Validate update은 파이프라인에 정의된 데이터 세트 및 흐름의 정의를 해결하지만, 데이터 세트를 구체화하거나 게시하지는 않습니다. 유효성 검사 중에 잘못된 table 또는 column 이름과 같은 오류가 UI에 보고됩니다.

Validate update실행하려면 파이프라인 세부 정보 페이지에서 시작 옆에 있는 Blue Down Caret을 클릭하고, 유효성 검사를 클릭합니다.

Validate update 완료되면 이벤트 로그에 Validateupdate관련된 이벤트만 표시되고 DAG에는 메트릭이 표시되지 않습니다. 오류가 발견되면 이벤트 로그에서 세부 정보를 사용할 수 있습니다.

가장 최근 Validateupdate대한 결과만 볼 수 있습니다. Validate update이 가장 최근에 실행된 update인 경우, update 기록에서를 선택하여 결과를 볼 수 있습니다. Validate update이후에 다른 update 실행되면 결과를 더 이상 UI에서 사용할 수 없습니다.

개발 및 프로덕션 모드

개발 모드와 프로덕션 모드 간에 전환하여 파이프라인 실행을 optimize 수 있습니다. 파이프라인 UI의 Delta Live Tables 환경 토글 아이콘 단추를 사용하여 이러한 두 모드 간에 전환합니다. 기본적으로 파이프라인은 개발 모드에서 실행됩니다.

개발 모드에서 파이프라인을 실행하는 경우 Delta Live Tables 시스템은 다음을 수행합니다.

  • 다시 시작 오버헤드를 피하기 위해 클러스터를 재사용합니다. 기본적으로 클러스터는 개발 모드가 사용하도록 설정되면 2시간 동안 실행됩니다. Delta Live 파이프라인의 구성 컴퓨팅에서 설정을 사용하여 이 설정을 변경할 수 있습니다.
  • 오류를 즉시 검색하고 수정할 수 있도록 파이프라인 다시 시도를 사용하지 않도록 설정합니다.

프로덕션 모드에서 Delta Live Tables 시스템은 다음을 수행합니다.

  • 메모리 누수 및 부실 credentials포함하여 복구 가능한 특정 오류에 대해 클러스터를 다시 시작합니다.
  • 클러스터 시작 실패와 같은 특정 오류 발생 시 실행을 다시 시도합니다.

참고 항목

개발 모드와 프로덕션 모드 간 전환은 클러스터 및 파이프라인 실행 동작만 제어합니다. 파이프라인 설정의 일부로 catalog 스토리지 위치 및 tables 게시를 위한 대상 스키마는 구성되어야 하며, 모드 간 전환 시 영향을 받지 않습니다.