데이터 흐름을 사용하여 차원 모델을 만드는 모범 사례

아티클
08/05/2023

차원 모델 디자인은 데이터 흐름으로 수행할 수 있는 가장 일반적인 작업 중 하나입니다. 이 문서에서는 데이터 흐름을 사용하여 차원 모델을 만들기 위한 몇 가지 모범 사례를 강조 표시합니다.

준비 데이터 흐름

데이터 통합 시스템의 핵심 요소 중 하나는 원본 운영 시스템의 읽기 수를 줄이는 것입니다. 기존 데이터 통합 아키텍처에서 이 감소는 스테이징 데이터베이스라는 새 데이터베이스를 만들어서 수행됩니다. 스테이징 데이터베이스의 목적은 데이터 원본에서 스테이징 데이터베이스로 정기적으로 데이터를 로드하는 것입니다.

그런 다음 나머지 데이터 통합에서는 스테이징 데이터베이스를 추가 변환을 위한 원본으로 사용하고 차원 모델 구조로 변환합니다.

데이터 흐름을 사용하여 동일한 방법을 따르는 것이 좋습니다. 원본 시스템에서 그대로 데이터를 로드하는 데이터 흐름 집합을 만듭니다(필요한 테이블에만 해당). 그런 다음 결과는 데이터 흐름의 스토리지 구조(Azure Data Lake Storage 또는 Dataverse)에 저장됩니다. 이렇게 변경하면 원본 시스템의 읽기 작업이 최소화됩니다.

다음으로 스테이징 데이터 흐름에서 데이터를 원본으로 하는 다른 데이터 흐름을 만들 수 있습니다. 이 방식의 이점은 다음과 같습니다.

원본 시스템의 읽기 작업 수를 줄이고 결과적으로 원본 시스템의 부하를 줄입니다.
온-프레미스 데이터 원본을 사용하는 경우 데이터 게이트웨이의 부하를 줄입니다.
원본 시스템 데이터가 변경되는 경우 조정을 위해 데이터의 중간 복사본을 포함합니다.
변환 데이터 흐름을 원본과 독립적으로 만듭니다.

준비 데이터 흐름.

변환 데이터 흐름

변환 데이터 흐름을 스테이징 데이터 흐름에서 분리한 경우 변환은 원본과 독립적입니다. 이 분리는 원본 시스템을 새 시스템으로 마이그레이션하는 경우에 도움이 됩니다. 이 경우 준비 데이터 흐름을 변경하기만 하면 됩니다. 변환 데이터 흐름은 스테이징 데이터 흐름에서만 원본이 되므로 문제 없이 작동할 수 있습니다.

이 분리는 원본 시스템 연결 속도가 느린 경우에도 도움이 됩니다. 변환 데이터 흐름은 원본 시스템에서 느린 연결을 통해 들어오는 레코드를 가져오기 위해 오랜 시간 동안 기다릴 필요가 없습니다. 스테이징 데이터 흐름은 이미 해당 부분을 완료했으며 데이터는 변환 계층에 대해 준비됩니다.

변환을 제외하고 이전 이미지와 유사한 이미지가 강조되고 데이터가 데이터 웨어하우스로 전송됩니다.

계층화된 아키텍처

계층화된 아키텍처는 별도의 계층에서 작업을 수행하는 아키텍처입니다. 스테이징 및 변환 데이터 흐름은 다중 계층 데이터 흐름 아키텍처의 두 계층일 수 있습니다. 레이어에서 작업을 수행하려고 하면 필요한 최소 기본 테넌스가 보장됩니다. 무언가를 변경하려는 경우 해당 항목이 있는 계층에서 변경하기만 하면 됩니다. 다른 계층은 모두 계속 제대로 작동해야 합니다.

다음 이미지는 해당 테이블이 Power BI 의미 체계 모델에서 사용되는 데이터 흐름에 대한 다중 계층 아키텍처를 보여 줍니다.

스테이징 데이터 흐름 및 변환 데이터 흐름이 별도의 계층에 있는 다중 계층 아키텍처가 있는 이미지.

계산된 테이블을 최대한 많이 사용

다른 데이터 흐름에서 데이터 흐름의 결과를 사용하는 경우 계산 테이블의 개념을 사용합니다. 즉, "이미 처리 및 저장" 테이블에서 데이터를 가져옵니다. 데이터 흐름 내에서도 같은 일이 발생할 수 있습니다. 다른 테이블에서 테이블을 참조하는 경우 계산 테이블을 사용할 수 있습니다. 이는 일반적인 변환이라고 하는 여러 테이블에서 수행해야 하는 변환 집합이 있는 경우에 유용합니다.

일반적인 변환을 처리하는 데 사용되는 데이터 원본에서 원본된 계산 테이블을 보여 주는 이미지입니다.

이전 이미지에서 계산 테이블은 원본에서 직접 데이터를 가져옵니다. 그러나 스테이징 및 변환 데이터 흐름의 아키텍처에서는 계산된 테이블이 스테이징 데이터 흐름에서 공급될 가능성이 높습니다.

일반적인 변환을 처리하는 데 사용되는 데이터 흐름에서 생성된 계산 테이블입니다.

별표 스키마 빌드

가장 좋은 차원 모델은 모델에서 데이터를 쿼리하는 시간을 최소화하고 데이터 시각화 도우미를 쉽게 이해할 수 있도록 차원 및 팩트 테이블이 디자인된 별모양 스키마 모델입니다.

운영 시스템의 동일한 레이아웃에 있는 데이터를 BI 시스템으로 가져오는 것은 이상적이지 않습니다. 데이터 테이블을 리모델링해야 합니다. 일부 테이블은 설명 정보를 유지하는 차원 테이블의 형태를 취해야 합니다. 집계 가능한 데이터를 유지하려면 일부 테이블이 팩트 테이블 형식을 사용해야 합니다. 팩트 테이블과 차원 테이블을 구성하는 데 가장 적합한 레이아웃은 별표 스키마입니다. 자세한 정보: 별표 스키마 및 Power BI의 중요성 이해

차원에 고유한 키 값 사용

차원 테이블을 빌드할 때 각 테이블에 대한 키가 있는지 확인합니다. 이 키를 사용하면 차원 간에 다 대 다(또는 "약한" 관계)가 없도록 합니다. 일부 변환을 적용하여 열 또는 열 조합이 차원의 고유한 행을 반환하는지 확인하여 키를 만들 수 있습니다. 그런 다음 열의 조합을 데이터 흐름의 테이블에서 키로 표시할 수 있습니다.

열을 키 값으로 표시합니다.

큰 팩트 테이블에 대해 증분 새로 고침 수행

팩트 테이블은 항상 차원 모델에서 가장 큰 테이블입니다. 이러한 테이블에 대해 전송되는 행 수를 줄이는 것이 좋습니다. 팩트 테이블이 매우 큰 경우 해당 테이블에 대해 증분 새로 고침을 사용하는지 확인합니다. Power BI 의미 체계 모델 및 데이터 흐름 테이블에서 증분 새로 고침을 수행할 수 있습니다.

증분 새로 고침을 사용하여 변경된 부분인 데이터의 일부만 새로 고칠 수 있습니다. 새로 고칠 데이터의 일부와 유지할 부분을 선택하는 여러 옵션이 있습니다. 추가 정보: Power BI 데이터 흐름에서 증분 새로 고침 사용

데이터 흐름에 대한 증분 새로 고침입니다.

차원 및 팩트 테이블을 만들기 위한 참조

원본 시스템에는 데이터 웨어하우스에서 팩트 테이블과 차원 테이블을 모두 생성하는 데 사용하는 테이블이 있는 경우가 많습니다. 이러한 테이블은 계산 테이블 및 중간 데이터 흐름에 적합한 후보입니다. 데이터 클린 및 추가 행 및 열 제거와 같은 프로세스의 일반적인 부분은 한 번 수행할 수 있습니다. 이러한 작업의 출력에서 참조를 사용하여 차원 및 팩트 테이블을 생성할 수 있습니다. 이 방법은 일반적인 변환에 계산 테이블을 사용합니다.

집계된 Orders라는 새 쿼리를 만드는 데 사용되는 참조 옵션이 있는 Orders 쿼리를 보여 주는 이미지입니다.

다음을 통해 공유