새 파일이 도착하면 작업 트리거하기
파일 도착 트리거를 사용하여 Amazon S3, Azure Storage, Google 클라우드 스토리지 등 외부 위치에 새 파일이 도착했을 때 Azure Databricks 작업을 실행하도록 트리거할 수 있습니다. 새 데이터가 불규칙한 일정에 따라 도착했기 때문에 예약된 작업이 비효율적일 수 있을 때 이 기능을 사용할 수 있습니다.
파일 도착 트리거는 기본 클라우드 스토리지의 성능에 영향을 받을 수 있지만, 1분마다 새 파일을 확인하려고 합니다. 파일 도착 트리거는 스토리지 위치에 파일을 나열하는 것과 관련된 클라우드 공급자 비용 이외의 추가 비용은 발생시키지 않습니다.
파일 도착 트리거 Unity Catalog 외부 위치 또는 볼륨의 루트, 외부 위치 또는 볼륨의 하위 경로를 모니터링하도록 구성할 수 있습니다. 예를 들어, Unity Catalog 루트 볼륨 /Volumes/mycatalog/myschema/myvolume/
에서 파일 도착 트리거에 대한 유효한 경로는 다음과 같습니다.
/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/
파일 도착 트리거는 구성된 위치의 모든 하위 디렉터리에서 새 파일을 재귀적으로 확인합니다. 예를 들어 위치에 /Volumes/mycatalog/myschema/myvolume/mydirectory/
대한 파일 도착 트리거를 만들고 이 위치에 다음 하위 디렉터리가 있는 경우:
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirA
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirB
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirC/subdirD
트리거는 , mydirectory
subdirA
, subdirB
및 subdirC
.의 subdirC/subdirD
새 파일을 확인합니다.
요구 사항
파일 도착 트리거를 사용하기 위한 요구사항은 다음과 같습니다.
- 작업 영역에 Unity 카탈로그가 활성화되어 있어야 합니다.
- Unity Catalog 메타스토어에 추가된 Unity Catalog 볼륨 또는 외부 위치를 스토리지 위치로 사용해야 합니다. 클라우드 스토리지를 Azure Databricks에 연결하기 위한 외부 위치 생성 방법을 참조하세요.
- 스토리지 위치에 대한
READ
권한이 있어야 하고 작업 권한을 관리할 수 있어야 합니다. 작업 권한에 대한 자세한 내용은 작업 ACL을 참조하세요.
제한 사항
- 새 파일 트리거만 실행됩니다. 동일한 이름의 파일로 기존 파일을 덮어쓰면 실행을 트리거하지 않습니다.
- Azure Databricks 작업 영역에서 파일 도착 트리거를 사용하여 최대 50개의 작업을 구성할 수 있습니다.
- 파일 도착 트리거에 대해 구성된 스토리지 위치는 최대 10,000개의 파일만 포함할 수 있습니다. 스토리지 위치에 이보다 파일이 더 많으면 새 파일 도착을 모니터링할 수 없습니다. 구성된 스토리지 위치가 Unity Catalog 외부 위치 또는 볼륨의 하위 경로인 경우, 10,000개 파일 제한은 스토리지 위치의 루트가 아닌 하위 경로에 적용됩니다. 예를 들어, 스토리지 위치의 루트는 하위 디렉터리 내에 10,000개 이상의 파일을 포함할 수 있지만, 트리거로 구성된 하위 디렉터리 10,000개의 파일 제한을 초과하면 안됩니다.
- 파일 도착 트리거에서 사용하는 경로에는 외부 테이블 또는 카탈로그 및 스키마의 관리 위치를 포함해서는 안 됩니다.
- 파일 도착 트리거에 사용되는 경로에는 와일드카드를 포함할 수 없습니다(예: <
a0/> *
).
파일 도착 트리거 추가
다음과 같이 작업에 파일 도착 트리거를 추가합니다.
- 사이드바에서 워크플로를 클릭합니다.
- 작업 탭의 이름 열에서 작업 이름을 클릭합니다.
- 오른쪽의 작업 세부 정보 패널에서 트리거 추가를 클릭합니다.
- 트리거 유형에서 파일 도착을 선택합니다.
- 스토리지 위치에 Unity Catalog 외부 위치의 루트 또는 하위 경로 URL, 또는 모니터링할 Unity Catalog 볼륨의 루트 또는 하위 경로를 입력합니다.
- (선택 사항) 고급 설정을 구성합니다.
- 트리거 사이의 최소 시간(초): 이전 실행이 완료된 후, 실행을 트리거하기 위해 대기하는 최소 시간입니다. 최소 시간이 지나기 전에 도착한 파일은 최소 시간이 지난 후에 실행을 트리거합니다. 이 설정을 사용하여 실행 생성 빈도를 제어할 수 있습니다.
- 마지막 변경 후 대기 시간(초): 파일 도착 후 실행을 트리거하기 위해 대기하는 시간입니다. 대기 시간에 다른 파일이 도착하면 타이머가 초기화됩니다. 이 설정은 파일이 일괄 처리로 도착할 때 사용할 수 있으며, 모든 파일이 도착한 후에 일괄적으로 처리해야 합니다.
- 구성을 검사하려면 연결 테스트를 클릭합니다.
- 저장을 클릭합니다.
실패한 파일 도착 트리거에 대한 알림 받기
파일 도착 트리거가 실패하는 경우 평가를 위해 알림을 받으려면 작업 실패 시 알림을 받을 이메일 또는 시스템 대상을 구성하세요. 작업에 알림을 추가하는 것을