자동 로더 파일 검색 모드 비교
자동 로더는 새 파일 검색을 위한 두 가지 모드, 즉 디렉터리 목록과 파일 알림을 지원합니다. 스트림을 다시 시작하는 동안 파일 검색 모드를 전환할 수 있으며 여전히 정확한 1회 데이터 처리 보장을 얻을 수 있습니다.
디렉터리 목록 모드
디렉터리 목록 모드에서 자동 로더는 입력 디렉터리를 나열하여 새 파일을 식별합니다. 디렉터리 목록 모드를 사용하면 클라우드 스토리지의 데이터에 대한 액세스 이외의 권한 구성 없이 자동 로더 스트림을 빠르게 시작할 수 있습니다.
Databricks Runtime 9.1 이상에서 자동 로더는 파일이 어휘 순서로 클라우드 스토리지에 도착하는지 여부를 자동으로 검색하고 새 파일을 검색하기 위해 수행해야 하는 API 호출의 양을 크게 줄일 수 있습니다. 자세한 내용은 자동 로더 디렉터리 나열 모드란?을 참조하세요.
파일 알림 모드
파일 알림 모드는 클라우드 인프라 계정의 파일 알림 및 큐 서비스를 활용합니다. 자동 로더는 입력 디렉터리에서 파일 이벤트를 구독하는 알림 서비스 및 큐 서비스를 자동으로 설정할 수 있습니다.
파일 알림 모드는 대규모 입력 디렉터리 또는 대용량 파일에 대해 더 성능이 좋고 확장 가능하지만 설정을 위해 추가 클라우드 권한이 필요합니다. 자세한 내용은 자동 로더 파일 알림 모드란?을 참조하세요.
모드에서 지원하는 클라우드 스토리지
이러한 모드의 사용 가능 여부는 아래에 나열되어 있습니다.
외부 위치 또는 DBFS 탑재에서 Unity 카탈로그 볼륨으로 마이그레이션하는 경우 자동 로더는 계속해서 정확히 한 번 보장합니다.
클라우드 스토리지 | 디렉터리 목록 | 파일 알림 |
---|---|---|
AWS S3 | 모든 버전 | 모든 버전 |
ADLS Gen2 | 모든 버전 | 모든 버전 |
GCS | 모든 버전 | Databricks Runtime 9.1 이상 |
Azure Blob Storage | 모든 버전 | 모든 버전 |
ADLS Gen1 | 모든 버전 | 지원되지 않음 |
DBFS | 모든 버전 | 탑재 지점에만 해당 |
Unity 카탈로그 볼륨 | Databricks Runtime 13.3 LTS 이상 | 지원되지 않음 |