테이블 유지 관리 기능을 사용하여 Fabric에서 Delta 테이블 관리
Microsoft Fabric의 Lakehouse는 Delta 테이블을 효율적으로 관리하고 항상 분석할 준비가 되도록 테이블 유지 관리 기능을 제공합니다. 이 가이드에서는 Lakehouse의 테이블 유지 관리 기능 및 해당 기능에 대해 설명합니다.
Lakehouse 테이블 유지 관리 기능의 주요 기능은 다음과 같습니다.
- Lakehouse 탐색기 내의 Delta 테이블에서 상황에 맞는 마우스 오른쪽 단추 클릭 작업을 사용하여 임시 테이블 유지 관리를 수행합니다.
- bin 압축, V 순서 및 참조되지 않은 이전 파일 정리를 적용합니다.
참고 항목
여러 테이블 유지 관리 명령 그룹화, 일정에 따라 오케스트레이션과 같은 고급 유지 관리 작업의 경우 코드 중심 접근 방식을 사용하는 것이 좋습니다. 자세한 내용은 Delta Lake 테이블 최적화 및 V 순서 문서를 참조하세요. 또한 Lakehouse API를 사용하여 테이블 유지 관리 작업을 자동화할 수도 있습니다. 자세한 내용은 Microsoft Fabric REST API를 사용하여 Lakehouse 관리를 참조하세요.
지원되는 파일 형식
Lakehouse 테이블 유지 관리는 delta Lake 테이블에만 적용됩니다. PARQUET, ORC, AVRO, CSV 및 기타 형식을 사용하는 레거시 Hive 테이블은 지원되지 않습니다.
테이블 유지 관리 작업
테이블 유지 관리 기능은 세 가지 작업을 제공합니다.
- 최적화: 여러 개의 작은 Parquet 파일을 큰 파일로 통합합니다. 빅 데이터 처리 엔진 및 모든 Fabric 엔진은 더 큰 파일 크기를 갖는 이점을 누릴 수 있습니다. 크기가 128MB를 초과하고 최적으로 1GB에 가까운 파일이 있으면 클러스터 노드 전체에서 압축 및 데이터 배포가 향상됩니다. 효율적인 읽기 작업을 위해 수많은 작은 파일을 검색할 필요가 줄어듭니다. 큰 테이블을 로드한 후 최적화 전략을 실행하는 것이 일반적인 모범 사례입니다.
- V 순서: Delta parquet 파일에 최적화된 정렬, 인코딩 및 압축을 적용하여 모든 Fabric 엔진에서 빠른 읽기 작업을 사용하도록 설정합니다. V 순서는 최적화 명령 중에 발생하며 사용자 환경의 명령 그룹에 대한 옵션으로 표시됩니다. V 순서에 대해 자세히 알아보려면 Delta Lake 테이블 최적화 및 V 순서를 참조하세요.
- Vacuum: Delta 테이블 로그에서 더 이상 참조하지 않는 오래된 파일을 제거합니다. 파일은 보존 임계값보다 오래되어야 하며 기본 파일 보존 임계값은 7일입니다. OneLake의 모든 Delta 테이블의 보존 기간은 동일합니다. 파일 보존 기간은 사용 중인 Fabric 컴퓨팅 엔진에 관계없이 동일합니다. 이 유지 관리는 스토리지 비용을 최적화하는 데 중요합니다. 보존 기간을 짧게 설정하면 Delta의 타임 트래블 기능에 영향을 미칩니다. 오래된 스냅샷과 커밋되지 않은 파일은 동시 테이블 읽기 및 쓰기 사용자가 계속 사용할 수 있으므로 보존 간격을 최소 7일로 설정하는 것이 일반적인 모범 사례입니다. VACUUM 명령을 사용하여 활성 파일을 정리하면 커밋되지 않은 파일이 제거될 경우 판독기 오류 또는 테이블 손상이 발생할 수 있습니다.
Lakehouse를 사용하여 Delta 테이블에서 임시 테이블 유지 관리 실행
기능을 사용하는 방법:
Microsoft Fabric 계정에서 원하는 Lakehouse로 이동합니다.
Lakehouse 탐색기의 테이블 섹션에서 테이블을 마우스 오른쪽 단추로 클릭하거나 줄임표를 사용하여 상황에 맞는 메뉴에 액세스합니다.
유지 관리 메뉴 항목을 선택합니다.
요구 사항에 따라 대화 상자에서 유지 관리 옵션을 확인합니다. 자세한 내용은 이 문서의 테이블 유지 관리 작업 섹션을 참조하세요.
지금 실행을 선택하여 테이블 유지 관리 작업을 실행합니다.
알림 창 또는 모니터링 허브를 통해 유지 관리 작업 실행을 추적합니다.
테이블 유지 관리는 어떻게 작동하나요?
지금 실행을 선택하면 실행을 위해 Spark 유지 관리 작업이 제출됩니다.
- Spark 작업은 사용자 ID 및 테이블 권한을 사용하여 제출됩니다.
- Spark 작업은 작업을 제출한 작업 영역/사용자의 Fabric 용량을 사용합니다.
- 테이블에서 실행 중인 다른 유지 관리 작업이 있는 경우 새 유지 관리 작업이 거부됩니다.
- 다른 테이블의 작업은 병렬로 실행할 수 있습니다.
- 테이블 유지 관리 작업은 모니터링 허브에서 쉽게 추적할 수 있습니다. 모니터링 허브 주 페이지의 활동 이름 열 내에서 "TableMaintenance" 텍스트를 찾습니다.