다음을 통해 공유


Lakehouse 엔드 투 엔드 시나리오: 개요 및 아키텍처

Microsoft Fabric은 데이터 이동에서 데이터 과학, 실시간 분석 및 비즈니스 인텔리전스에 이르기까지 모든 것을 다루는 엔터프라이즈를 위한 올인원 분석 솔루션입니다. 데이터 레이크, 데이터 엔지니어링 및 데이터 통합을 포함한 포괄적인 서비스 제품군을 모두 한 곳에서 제공합니다. 자세한 내용은 Microsoft Fabric란?을 참조하세요.

이 자습서에서는 데이터 취득에서 데이터 소비에 이르는 엔드 투 엔드 시나리오를 안내합니다. 다양한 환경과 통합 방법뿐만 아니라 이 플랫폼에서 작업할 때 제공되는 전문 및 시민 개발자 환경을 포함하여 Fabric에 대한 기본적인 이해를 구축하는 데 도움이 됩니다. 이 자습서는 참조 아키텍처, 기능 및 기능의 전체 목록 또는 특정 모범 사례의 권장 사항이 아닙니다.

Lakehouse 엔드 투 엔드 시나리오

일반적으로 조직은 트랜잭션 및 구조적 데이터 분석 요구 사항에 맞게 최신 데이터 Warehouse를 구축해 왔습니다. 빅 데이터(반정형/비정형) 데이터 분석에 대한 데이터 Lakehouse도 필요합니다. 이 두 시스템이 병렬로 운영되면서 사일로 현상, 데이터 중복, 그리고 총 소유 비용 증가를 유발했습니다.

데이터 저장소의 통합과 Delta Lake 형식의 표준화를 사용하는 Fabric을 사용하면 사일로를 제거하고 데이터 중복을 제거하며 총 소유 비용을 크게 줄일 수 있습니다.

Fabric에서 제공하는 유연성을 통해 Lakehouse 또는 데이터 Warehouse 아키텍처를 구현하거나 함께 결합하여 간단한 구현으로 둘 다 최대한 활용할 수 있습니다. 이 자습서에서는 리테일 조직의 예를 들어 처음부터 끝까지 Lakehouse를 빌드합니다. 브론즈 계층에 원시 데이터가 있고, 실버 계층에 유효성이 검사되고 중복 제거된 데이터가 있으며, 골드 계층에 고도로 세련된 데이터가 있는 medallion 아키텍처를 사용합니다. 모든 업계의 모든 조직에 대해 Lakehouse를 구현하는 동일한 접근 방식을 취할 수 있습니다.

이 자습서에서는 리테일 도메인의 가상 Wide World Importers 회사의 개발자가 다음 단계를 완료하는 방법을 설명합니다.

  1. Power BI 계정에 로그인하고 무료 Microsoft Fabric 평가판에 등록합니다. Power BI 라이선스 가 없는 경우 Power BI 무료 라이선스에 등록한 다음 Fabric 평가판을 시작할 수 있습니다.

  2. 조직에 대한 엔드 투 엔드 Lakehouse를 빌드하고 구현합니다.

  3. 작업 영역 및 기타 항목을 삭제하여 리소스를 정리합니다.

아키텍처

다음 이미지는 Lakehouse 엔드 투 엔드 아키텍처를 보여줍니다. 다음 표에는 두 가지 해당 구성 요소가 정리되어 있습니다.

Microsoft Fabric의 Lakehouse 엔드 투 엔드 아키텍처 다이어그램.

  • 데이터 원본: Fabric을 사용하면 간소화된 데이터 수집을 위해 Azure Data Services뿐만 아니라 다른 클라우드 기반 플랫폼 및 온-프레미스 데이터 원본에 빠르고 쉽게 연결할 수 있습니다.

  • 수집: 200개 이상의 네이티브 커넥터를 사용하여 조직에 대한 인사이트를 빠르게 작성할 수 있습니다. 이러한 커넥터는 Fabric 파이프라인에 통합되며 데이터 흐름을 사용하여 사용자에게 친숙한 끌어서 놓기 데이터 변환을 활용합니다. 또한 Fabric의 바로 가기 기능을 사용하면 복사하거나 이동하지 않고도 기존 데이터에 연결할 수 있습니다.

  • 변환 및 저장: Fabric은 Delta Lake 형식으로 표준화됩니다. 즉, 모든 Fabric 엔진은 데이터를 복제하지 않고 OneLake에 저장된 동일한 데이터 세트에 액세스하고 조작할 수 있습니다. 이 스토리지 시스템은 조직의 요구 사항에 따라 medallion 아키텍처 또는 데이터 메시를 사용하여 Lakehouse를 유연하게 빌드할 수 있습니다. 코드 우선 환경을 위해 파이프라인/데이터 흐름 또는 Notebook/Spark를 활용하여 데이터 변환을 위한 하위 코드 또는 코드 없음 환경 중에서 선택할 수 있습니다.

  • 사용: Power BI는 보고 및 시각화를 위해 Lakehouse의 데이터를 사용할 수 있습니다. 각 Lakehouse에는 다른 보고 도구에서 Lakehouse 테이블의 데이터를 쉽게 연결하고 쿼리할 수 있도록 SQL 분석 엔드포인트라는 기본 제공 TDS 엔드포인트 가 있습니다. SQL 분석 엔드포인트는 사용자에게 SQL 연결 기능을 제공합니다.

샘플 데이터 세트

이 자습서에서는 다음 자습서에서 Lakehouse로 가져올 WWI(Wide World Importers) 샘플 데이터베이스 를 사용합니다. Lakehouse 엔드 투 엔드 시나리오의 경우 Fabric 플랫폼의 규모 및 성능 기능을 탐색할 수 있는 충분한 데이터를 생성했습니다.

WWI(Wide World Importers)은 샌프란시스코 베이 지역에서 운영하는 도매 참신 상품 수입 및 유통 업체입니다. 도매업자로서, WWI의 고객은 주로 개인에게 재판매하는 회사입니다. WWI는 전문 상점, 슈퍼마켓, 컴퓨팅 상점, 관광 명소 상점, 일부 개인을 포함하여 미국 전역의 소매 고객에게 판매합니다. WWI는 WWI를 대신하여 제품을 홍보하는 에이전트 네트워크를 통해 다른 도매업자에게도 판매합니다. 회사 프로필 및 운영에 대한 자세한 내용은 Microsoft SQL용 Wide World Importers 샘플 데이터베이스를 참조하세요.

일반적으로 데이터는 트랜잭션 시스템 또는 LOB(기간 업무) 애플리케이션에서 Lakehouse로 가져옵니다. 그러나 이 자습서의 단순성을 위해 WWI에서 제공하는 차원 모델을 초기 데이터 원본으로 사용합니다. 데이터를 Lakehouse로 수집하고 메달 아키텍처의 여러 단계(브론즈, 실버 및 골드)를 통해 변환하는 원본으로 사용합니다.

데이터 모델

WWI 차원 모델에는 수많은 팩트 테이블이 포함되어 있지만 이 자습서에서는 Sale 팩트 테이블과 관련 차원을 사용합니다. 다음 예시는 WWI 데이터 모델을 보여줍니다:

이 자습서의 데이터 모델에 대한 판매 팩트 테이블 및 관련 차원의 다이어그램

데이터 및 변환 흐름

앞에서 설명한 대로 WWI(Wide World Importers) 샘플 데이터의 샘플 데이터를 사용하여 이 엔드 투 엔드 Lakehouse를 빌드합니다. 이 구현에서 샘플 데이터는 모든 테이블에 대해 Parquet 파일 형식으로 Azure Data Storage 계정에 저장됩니다. 그러나 실제 시나리오에서 데이터는 일반적으로 다양한 원본과 다양한 형식에서 발생합니다.

다음 이미지는 원본, 대상 및 데이터 변환을 보여 줍니다.

Microsoft Fabric에서 데이터가 어떻게 흐르고 변환되는지에 대한 다이어그램.

  • 데이터 원본: 원본 데이터는 Parquet 파일 형식이며 분할되지 않은 구조입니다. 각 테이블의 폴더에 저장됩니다. 이 자습서에서는 전체 기록 또는 일회성 데이터를 Lakehouse에 수집하도록 파이프라인을 설정합니다.

    이 자습서에서는 11개월 동안의 기록 데이터가 있는 상위 폴더(매월 하나의 하위 폴더 포함)와 3개월 동안의 증분 데이터가 있는 다른 폴더(매월 하나의 하위 폴더 포함)가 있는 Sale 팩트 테이블을 사용합니다. 초기 데이터 수집 중에 11개월의 데이터가 Lakehouse 테이블에 수집됩니다. 그러나 증분 데이터가 도착하면 10월과 11월에 업데이트된 데이터가 포함되며, 12월 및 11월 데이터의 새 데이터는 기존 데이터와 병합되고 새 12월 데이터는 다음 이미지와 같이 Lakehouse 테이블에 기록됩니다.

    변경된 데이터를 Lakehouse에서 처음 수집된 데이터에 증분 방식으로 병합하는 방법을 보여 주는 다이어그램

  • Lakehouse: 이 자습서에서는 Lakehouse를 만들고, Lakehouse의 파일 섹션에 데이터를 수집한 다음, Lakehouse의 테이블 섹션에 Delta Lake 테이블을 만듭니다.

  • Transform: 데이터 준비 및 변환의 경우 두 가지 방법이 표시됩니다. 코드 우선 환경을 선호하고 하위 코드 또는 코드 없음 환경을 선호하는 사용자를 위해 파이프라인/데이터 흐름을 사용하는 사용자를 위해 Notebooks/Spark를 사용하는 방법을 보여 줍니다.

  • Consume: 데이터 소비를 보여 주려면 Power BI의 DirectLake 기능을 사용하여 보고서, 대시보드를 만들고 Lakehouse에서 데이터를 직접 쿼리하는 방법을 확인할 수 있습니다. 또한 TDS/SQL 분석 엔드포인트를 사용하여 타사 보고 도구에서 데이터를 사용할 수 있도록 하는 방법을 보여 줍니다. 이 엔드포인트를 사용하면 Warehouse에 연결하고 분석을 위해 SQL 쿼리를 실행할 수 있습니다.

다음 단계