Lakehouse 및 Delta Lake 테이블
Microsoft Fabric Lakehouse는 정형 및 비정형 데이터를 단일 위치에서 저장, 관리 및 분석하는 데이터 아키텍처 플랫폼입니다. Microsoft Fabric의 모든 컴퓨팅 엔진에서 원활한 데이터 액세스를 달성하기 위해 통합 테이블 형식으로 Delta Lake가 선택되었습니다.
테이블에 로드와 같은 기능 또는 Fabric Lakehouse로 데이터를 가져오는 옵션에 설명된 메서드를 사용하여 Lakehouse에 데이터를 저장하면 모든 데이터가 Delta 형식으로 저장됩니다.
Delta Lake 테이블 형식에 대한 보다 포괄적인 소개는 다음 단계 섹션의 링크를 따르세요.
빅 데이터, Apache Spark 및 레거시 테이블 형식
Microsoft Fabric Apache Spark를 위한 런타임은 Apache Spark용 Azure Synapse Analytics Runtime과 동일한 기반을 사용하지만 Microsoft Fabric 서비스의 모든 엔진에서 보다 간소화된 동작을 제공하기 위한 주요 차이점이 포함되어 있습니다. Microsoft Fabric에서 주요 성능 기능은 기본적으로 켜져 있습니다. 고급 Apache Spark 사용자는 특정 시나리오에 맞게 구성을 이전 값으로 되돌릴 수 있습니다.
Microsoft Fabric Lakehouse 및 Apache Spark 엔진은 관리형 및 관리되지 않는 모든 테이블 형식을 지원합니다. 여기에는 뷰 및 일반 비 Delta Hive 테이블 형식이 포함됩니다. PARQUET, CSV, AVRO, JSON 및 Apache Hive 호환 파일 형식을 사용하여 정의된 테이블은 예상대로 작동합니다.
Lakehouse 탐색기 사용자 인터페이스 환경은 테이블 유형에 따라 다릅니다. 현재 Lakehouse 탐색기는 테이블 개체만 렌더링합니다.
Azure Synapse Analytics와 구성 차이점
다음 표에는 Azure Synapse Analytics와 Apache Spark용 Microsoft Fabric 런타임 간의 구성 차이점이 포함되어 있습니다.
Apache Spark 구성 | Microsoft Fabric 값 | Azure Synapse Analytics 값 | 주의 |
---|---|---|---|
spark.sql.sources.default | delta | parquet | 테이블 기본 양식 |
spark.sql.parquet.vorder.enabled | true | 해당 없음 | V 순서 기록기 |
spark.sql.parquet.vorder.dictionaryPageSize | 2GB | 해당 없음 | V 순서에 대한 사전 페이지 크기 제한 |
spark.microsoft.delta.optimizeWrite.enabled | true | 설정 해제 (False) | 쓰기 최적화 |
테이블 자동 검색
Lakehouse 탐색기는 Microsoft Fabric Lakehouse 항목의 개체에 대한 트리와 유사한 보기를 제공합니다. 메타데이터 리포지토리 및 OneLake 스토리지에 설명된 테이블을 검색하고 표시하는 주요 기능이 있습니다. 테이블 참조는 Lakehouse 탐색기 사용자 인터페이스의 Tables
섹션 아래에 표시됩니다. 자동 검색은 OneLake 바로 가기를 통해 정의된 테이블에도 적용됩니다.
바로 가기를 통해 테이블
Microsoft Fabric Lakehouse는 OneLake 바로 가기를 통해 정의된 테이블을 지원하여 최대한의 호환성과 데이터 이동을 제공합니다. 다음 표에는 바로 가기를 통해 사용할 때 각 항목 유형에 대한 시나리오 모범 사례가 포함되어 있습니다.
바로 가기 대상 | 바로 가기를 만들 위치 | 모범 사례 |
---|---|---|
Delta Lake 테이블 | Tables 섹션 |
대상에 여러 테이블이 있는 경우 테이블당 하나의 바로 가기를 만듭니다. |
파일이 있는 폴더 | Files 섹션 |
Apache Spark를 사용하여 상대 경로를 사용하여 대상을 직접 사용합니다. 성능을 최대화하기 위해 Lakehouse 네이티브 Delta 테이블에 데이터를 로드합니다. |
레거시 Apache Hive 테이블 | Files 섹션 |
Apache Spark를 사용하여 상대 경로를 사용하여 대상을 직접 사용하거나 CREATE EXTERNAL TABLE 구문을 사용하여 메타데이터 카탈로그 참조를 만듭니다. 성능을 최대화하기 위해 Lakehouse 네이티브 Delta 테이블에 데이터를 로드합니다. |
테이블로 로드
Microsoft Fabric Lakehouse는 Delta 테이블에 데이터 로드를 간소화하는 편리하고 생산적인 사용자 인터페이스를 제공합니다. 테이블로 로드 기능을 사용하면 시각적 환경에서 공통 파일 형식을 Delta에 로드하여 모든 가상 사용자에 대한 분석 생산성을 높일 수 있습니다. 테이블에 로드 기능에 대해 자세히 알아보려면 Lakehouse 테이블에 로드 참조 문서를 읽어보세요.
Delta Lake 테이블 최적화
광범위한 분석 시나리오에 대한 테이블 모양을 유지하는 것은 사소한 일이 아닙니다. Microsoft Fabric Lakehouse는 중요한 매개 변수를 사용하여 압축 및 작은 파일 크기와 같은 빅 데이터 테이블과 관련된 일반적인 문제를 최소화하고 쿼리 성능을 최대화할 수 있습니다. 그러나 이러한 매개 변수에 변경이 필요한 많은 시나리오가 있습니다. Delta Lake 테이블 최적화 및 V 순서 문서에서는 몇 가지 주요 시나리오를 다루며 성능을 극대화하기 위해 Delta 테이블을 효율적으로 유지하는 방법에 대한 자세한 가이드를 제공합니다.