Power BI 사용 시나리오: 고급 데이터 준비
참고 항목
이 문서는 Power BI 구현 계획 시리즈의 일부를 구성합니다. 이 시리즈는 주로 Microsoft Fabric 내의 Power BI 환경에 중점을 둡니다. 시리즈에 대한 소개는 Power BI 구현 계획을 참조하세요.
데이터 준비(추출, 변환 및 로드의 약어인 ETL이라고도 함) 작업에는 많은 노력이 수반되는 경우가 많습니다. 데이터를 수집, 정리, 결합 및 보강하는 데 드는 시간, 기술 및 노력은 원본 데이터의 품질과 구조에 따라 달라집니다.
중앙 집중식 데이터 준비에 시간과 노력을 투자하면 다음에 도움이 됩니다.
- 데이터 준비 작업을 통해 재사용성을 향상하고 최대 가치를 얻습니다.
- 여러 팀에 일관된 데이터를 제공하는 기능을 개선합니다.
- 다른 콘텐츠 작성자가 요구하는 작업 수준을 낮춥니다.
- 규모와 성능을 달성합니다.
고급 데이터 준비 사용 시나리오는 셀프 서비스 데이터 준비 시나리오를 기반으로 확장됩니다. 고급 데이터 준비는 다양한 팀의 여러 사용자가 다양한 사용 사례에서 데이터 흐름을 재사용하는 가능성을 늘리는 것입니다.
데이터 흐름 용도로 구성된 별도의 작업 영역은 데이터 흐름 출력이 여러 의미 체계 모델 작성자에게 제공되는 경우 특히 조직의 다른 팀에 있는 경우에 유용합니다. 별도의 작업 영역은 데이터 흐름을 만들고 관리하는 사람이 데이터 흐름을 사용하는 사용자와 다를 때 보안 역할을 관리하는 데에도 유용합니다.
참고 항목
고급 데이터 준비 시나리오는 두 번째 데이터 준비 시나리오입니다. 이 시나리오는 셀프 서비스 데이터 준비 시나리오에 설명된 대로 중앙 집중식 데이터 흐름으로 수행할 수 있는 작업을 기반으로 합니다.
고급 데이터 준비 시나리오는 셀프 서비스 BI 시나리오 중 하나입니다. 그러나 중앙 집중식 팀 구성원은 관리형 셀프 서비스 BI 시나리오에 설명된 것과 비슷한 방식으로 이 기술을 사용할 수 있습니다. 셀프 서비스 시나리오의 전체 목록은 Power BI 사용 시나리오 문서를 참조하세요.
간단히 하기 위해 콘텐츠 협업 및 배달 시나리오 항목에 설명된 몇 가지 측면은 이 문서에서 다루지 않습니다. 전체 범위를 파악할 수 있도록 해당 문서를 먼저 읽어보세요.
시나리오 다이어그램
팁
아직 익숙하지 않다면 셀프 서비스 콘텐츠 게시 사용 시나리오를 복습하는 것이 좋습니다. 고급 셀프 서비스 데이터 준비 시나리오는 이 시나리오를 기반으로 합니다.
이 고급 데이터 준비 시나리오는 다음에 중점을 둡니다.
- 목적(준비, 변환 또는 최종)에 따라 데이터 흐름 사용. 특정 사용자 요구 사항을 지원할 수 있도록 구성 가능한 구성 요소를 사용하여 다양한 조합으로 재사용 가능성을 높이는 것이 좋습니다. 구성 가능한 구성 요소는 이 문서의 뒷부분에 설명되어 있습니다.
- 데이터 흐름 작성자 또는 데이터 흐름 소비자를 지원하는 별도의 작업 영역 사용. 데이터 흐름을 사용하는 데이터 모델러가 다른 팀에 있고/있거나 사용 사례가 다를 수 있습니다.
- 연결된 테이블(연결된 엔터티라고도 함), 컴퓨팅된 테이블(컴퓨팅된 엔터티라고도 함) 및 향상된 컴퓨팅 엔진 사용
참고 항목
경우에 따라 의미 체계 모델 및 데이터 모델이라는 용어는 서로 바꿔서 사용됩니다. 일반적으로 Power BI 서비스의 관점에서는 의미 체계 모델이라고 부릅니다. 개발 관점에서는 데이터 모델(또는 짧게 모델)이라고 합니다. 이 문서에서는 두 용어 모두 동일한 의미를 갖습니다. 마찬가지로 의미 체계 모델 작성자와 데이터 모델러는 동일한 의미를 갖습니다.
다음 다이어그램에서는 고급 데이터 준비 시나리오를 지원하는 가장 일반적인 사용자 작업 및 Power BI 구성 요소의 개요를 보여 줍니다.
팁
프레젠테이션, 설명서, 블로그 게시물에 포함하려는 경우 시나리오 다이어그램을 다운로드하거나 벽 포스터로 인쇄하는 것이 좋습니다. SVG(확장 가능한 벡터 그래픽) 이미지이므로 품질 손실 없이 스케일 업 또는 스케일 다운할 수 있습니다.
시나리오 다이어그램은 다음과 같은 사용자 작업, 도구 및 기능을 보여 줍니다.
Item | 설명 |
---|---|
데이터 흐름 작성자는 데이터 흐름 내에서 테이블 컬렉션을 개발합니다. 재사용을 위한 데이터 세트의 경우 필수는 아니지만 작성자가 조직 경계 간에 사용자를 지원하는 중앙 집중화된 팀(예: IT, 엔터프라이즈 BI 또는 우수성 센터)에 속하는 경우가 많습니다. | |
데이터 흐름은 하나 또는 여러 데이터 원본의 데이터에 연결합니다. | |
일부 데이터 원본에는 프라이빗 조직 네트워크 내에 있는 것과 같이 데이터 새로 고침을 위해 온-프레미스 데이터 게이트웨이 또는 VNet Gateway가 필요할 수 있습니다. 이러한 게이트웨이는 파워 쿼리 Online에서 데이터 흐름을 작성하고 데이터 흐름을 새로 고치는 데 모두 사용됩니다. | |
관련된 모든 작업 영역에는 라이선스 모드가 패브릭 용량, 프리미엄 용량, 사용자 단위 Premium 또는포함으로 설정되어 있습니다. 이러한 라이선스 모드에서는 이 시나리오에서 필요한 연결된 테이블 및 컴퓨팅된 테이블을 작업 영역에 사용할 수 있습니다. | |
데이터 흐름 작성자는 웹 기반 버전의 Power Query인 Power Query Online을 사용하여 데이터 흐름을 개발합니다. | |
준비 데이터 흐름은 데이터 흐름의 중앙 집중식 관리 전용 작업 영역에 만들어집니다. 준비 데이터 흐름은 원본의 원시 데이터를 있는 그대로 복사합니다. 변환이 적용되는 경우는 거의 없습니다. | |
동일한 작업 영역에 변환 데이터 흐름(정리된 데이터 흐름이라고도 함)이 만들어집니다. 변환 데이터 흐름은 준비 데이터 흐름에 연결된 테이블을 사용하여 데이터를 얻습니다. 컴퓨팅된 테이블에는 데이터를 준비, 정리 및 재구성하는 변환 단계가 포함됩니다. | |
데이터 흐름 작성자는 데이터 흐름의 중앙 집중식 관리 전용 작업 영역에서 콘텐츠를 관리할 수 있습니다. | |
최종 데이터 흐름에 대한 액세스를 제공하기 위한 하나 이상의 다른 작업 영역이 있으며, 이 작업 영역은 데이터 모델에 프로덕션 준비 데이터를 제공합니다. | |
최종 데이터 흐름은 데이터 모델러가 사용할 수 있는 작업 영역에 만들어집니다. 최종 데이터 흐름은 변환 데이터 흐름에 연결된 테이블을 사용하여 데이터를 얻습니다. 컴퓨팅된 테이블은 작업 영역 뷰어 역할이 부여된 데이터 모델러가 볼 수 있는 준비된 출력을 나타냅니다. | |
데이터 흐름 출력을 사용하는 의미 체계 모델 작성자는 최종 데이터 흐름 출력이 포함된 작업 영역에 대한 뷰어 액세스 권한을 가집니다. 또한 데이터 흐름 작성자는 작업 영역에서 콘텐츠를 관리하고 게시할 수 있습니다(시나리오 다이어그램에 표시되지 않음). | |
의미 체계 모델 작성자는 Power BI Desktop에서 데이터 모델을 개발할 때 최종 데이터 흐름을 데이터 원본으로 사용합니다. 준비가 되면 의미 체계 모델 작성자는 데이터 모델이 포함된 Power BI Desktop 파일(.pbix)을 Power BI 서비스에 게시합니다(시나리오 다이어그램에 표시되지 않음). | |
Fabric 관리자는 관리 포털에서 설정을 관리합니다. | |
관리 포털에서 Power BI 관리자는 ADLS Gen2(Azure Data Lake Storage Gen2) 계정에 데이터 흐름 데이터를 저장하도록 Azure 연결을 설정할 수 있습니다. 설정에는 테넌트 수준 스토리지 계정을 할당하고 작업 영역 수준 스토리지 권한을 사용하도록 설정하는 것이 포함됩니다. | |
기본적으로 데이터 흐름은 Power BI 서비스에서 관리되는 내부 스토리지를 사용하여 데이터를 저장합니다. 필요에 따라 데이터 흐름에서 출력한 데이터를 조직의 ADLS Gen2 계정에 저장할 수 있습니다. | |
Fabric 관리자는 Fabric 포털의 작업을 감독하고 모니터링합니다. |
핵심 내용
다음은 고급 데이터 준비 시나리오에 대해 강조할 몇 가지 핵심 사항입니다.
데이터 흐름
데이터 흐름은 테이블(엔터티라고도 함) 컬렉션으로 구성됩니다. 각 테이블은 테이블에 데이터를 로드하는 데 필요한 데이터 준비 단계를 포함하고 있는 쿼리를 통해 정의됩니다. 데이터 흐름을 만드는 모든 작업은 Power Query Online에서 수행됩니다. Power Apps, Dynamics 365 Customer Insights 및 Power BI를 비롯한 여러 제품에서 데이터 흐름을 만들 수 있습니다.
참고 항목
Power BI 서비스의 개인 작업 영역에서는 데이터 흐름을 만들 수 없습니다.
데이터 흐름 유형
구성 가능한 구성 요소의 사용은 시스템 구성 요소를 관리, 배포 및 보호하고 다양한 조합으로 사용할 수 있는 디자인 원칙입니다. 목적과 관련된 모듈식 자체 포함 데이터 흐름을 만드는 것이 가장 좋습니다. 데이터 재사용 및 엔터프라이즈 규모를 달성하는 데 도움이 됩니다. 모듈식 데이터 흐름은 관리 및 테스트하기도 더 쉽습니다.
시나리오 다이어그램에는 준비 데이터 흐름, 변환 데이터 흐름, 최종 데이터 흐름의 세 가지 데이터 흐름 형식이 표시되어 있습니다.
준비 데이터 흐름
준비 데이터 흐름(데이터 추출 데이터 흐름이라고도 함)에서는 원본의 원시 데이터를 있는 그대로 복사합니다. 변환을 최소화하면서 원시 데이터를 추출하면 다운스트림 변환 데이터 흐름(다음에 설명)에서 준비 데이터 흐름을 원본으로 사용할 수 있습니다. 이 모듈화는 다음과 같은 경우에 유용합니다.
- 데이터 원본 액세스가 좁은 시간 범위 및/또는 일부 사용자로 제한됩니다.
- 모든 다운스트림 데이터 흐름(및 관련 의미 체계 모델)이 데이터 원본에서 추출된 데이터를 동시에 제공하도록 하려면 임시 일관성 필요합니다.
- 원본 시스템 제한 또는 분석 쿼리를 지원하는 기능으로 인해 데이터 원본에 제출되는 쿼리 수를 줄여야 합니다.
- 원본 데이터의 복사본은 조정 프로세스 및 데이터 품질 검사에 유용합니다.
변환 데이터 흐름
변환 데이터 흐름(정리된 데이터 흐름이라고도 함)은 준비 데이터 흐름에 연결되는 연결된 테이블에서 데이터를 얻습니다. 데이터 추출 프로세스에서 변환을 분리하는 것이 가장 좋습니다.
변환 데이터 흐름에는 데이터를 준비하고 재구성하는 데 필요한 모든 변환 단계가 포함됩니다. 그러나 데이터 흐름이 여러 사용 사례 및 목적에 적합하도록 만들기 위해 이 계층에서도 여전히 재사용성에 중점을 둡니다.
최종 데이터 흐름
최종 데이터 흐름은 준비된 출력을 나타냅니다. 사용 사례 및 목적에 따라 몇 가지 추가 변환이 발생할 수 있습니다. 분석의 경우 선호도가 높은 최종 데이터 흐름의 디자인은 별모양 스키마 테이블(차원 또는 팩트)입니다.
컴퓨팅된 테이블은 작업 영역 뷰어 역할이 부여된 데이터 모델러에게 표시됩니다. 이 테이블 형식은 아래의 데이터 흐름 테이블 형식 토픽에 설명되어 있습니다.
참고 항목
데이터 레이크에는 종종 브론즈, 실버, 골드와 같은 영역이 있습니다. 세 가지 유형의 데이터 흐름은 유사한 디자인 패턴을 나타냅니다. 최상의 데이터 아키텍처 결정을 내리려면 데이터를 유지 관리하는 사람, 예상되는 데이터 사용, 데이터에 액세스하는 사람들이 요구하는 기술 수준에 대해 생각해 보세요.
데이터 흐름에 대한 작업 영역
모든 데이터 흐름을 단일 작업 영역에 만드는 경우 재사용 범위가 크게 제한됩니다. 단일 작업 영역을 사용하면 여러 팀 및/또는 여러 사용 사례에서 여러 유형의 사용자를 지원할 때 사용할 수 있는 보안 옵션도 제한됩니다. 여러 작업 영역을 사용하는 것이 좋습니다. 그러면 조직의 다양한 영역에서 셀프 서비스 작성자를 지원해야 할 때 유연성이 향상됩니다.
시나리오 다이어그램에 표시된 두 가지 작업 영역 유형은 다음과 같습니다.
- 작업 영역 1: 중앙에서 관리되는 데이터 흐름(백 엔드 작업 영역이라고도 함)을 저장합니다. 동일한 사람이 관리하는 준비 데이터 흐름과 변환 데이터 흐름이 모두 여기에 포함됩니다. 데이터 흐름 작성자는 IT, BI 또는 우수성 센터와 같은 중앙 집중화된 팀 소속인 경우가 많습니다. 이들에게는 작업 영역 관리자, 구성원 또는 기여자 역할을 할당해야 합니다.
- 작업 영역 2: 최종 데이터 흐름 출력을 저장하고 데이터 소비자(사용자 작업 영역이라고도 함)에게 제공합니다. 의미 체계 모델 작성자는 셀프 서비스 분석가, 파워 사용자 또는 시민 데이터 엔지니어인 경우가 많습니다. 이들은 최종 데이터 흐름의 출력만 사용해야 하므로 작업 영역 뷰어 역할을 할당해야 합니다. 사용 사례 및 보안 요구 사항에 따라 이와 같은 다양한 작업 영역을 만들면 조직의 다양한 영역에서 의미 체계 모델 작성자를 지원할 수 있습니다.
팁
셀프 서비스 데이터 준비 사용 시나리오에 설명된 대로 의미 체계 작성자를 지원하는 방법을 검토하는 것이 좋습니다. 의미 체계 모델 작성자는 여전히 Power BI Desktop 내에서 Power Query의 모든 기능을 사용할 수 있다는 것을 이해하는 것이 중요합니다. 데이터 세트 작성자는 쿼리 단계를 추가하여 데이터 흐름 데이터를 추가로 변환하거나 데이터 흐름 출력을 다른 원본과 병합하도록 선택할 수 있습니다.
데이터 흐름 테이블 형식
시나리오 다이어그램에는 세 가지 유형의 데이터 흐름 테이블(엔터티라고도 함)이 설명되어 있습니다.
- 표준 테이블: 데이터베이스와 같은 외부 데이터 원본을 쿼리합니다. 시나리오 다이어그램에서 표준 테이블은 준비 데이터 흐름에 표시되어 있습니다.
- 연결된 테이블: 다른 데이터 흐름의 테이블을 참조합니다. 연결된 테이블은 데이터를 복제하지 않습니다. 대신 표준 테이블을 여러 용도로 여러 번 재사용할 수 있습니다. 원래 데이터 흐름의 권한을 상속하는 작업 영역 뷰어에게는 연결된 테이블이 표시되지 않습니다. 시나리오 다이어그램에서는 연결된 테이블이 두 번 표시됩니다.
- 준비 데이터 흐름에서 데이터에 액세스하기 위해 변환 데이터 흐름에 표시됩니다.
- 변환 데이터 흐름에서 데이터에 액세스하기 위해 최종 데이터 흐름에 표시됩니다.
- 컴퓨팅된 테이블: 다른 데이터 흐름을 원본으로 사용하여 추가 계산을 수행합니다. 컴퓨팅된 테이블을 사용하면 개별 사용 사례에 필요한 대로 출력을 사용자 지정할 수 있습니다. 시나리오 다이어그램에서는 컴퓨팅된 테이블이 두 번 표시됩니다.
- 일반적인 변환을 수행하기 위한 변환 데이터 흐름에 표시됩니다.
- 의미 체계 모델 작성자에게 출력을 전달하기 위해 최종 데이터 흐름에 표시됩니다. 컴퓨팅된 테이블은 데이터 흐름을 새로 고친 후 데이터를 다시 유지하므로, 데이터 모델러가 최종 데이터 흐름에서 컴퓨팅된 테이블에 액세스할 수 있습니다. 이 경우 데이터 모델러에게 작업 영역 뷰어 역할을 사용하여 액세스 권한을 부여해야 합니다.
참고 항목
데이터 흐름을 셀프 서비스에서 엔터프라이즈 준비로 전환할 수 있는 여러 가지 디자인 기술, 패턴 및 모범 사례가 있습니다. 또한 라이선스 모드가 사용자 단위 프리미엄 또는 프리미엄 용량으로 설정된 작업 영역의 데이터 흐름은 고급 기능을 활용할 수 있습니다. 연결된 테이블과 컴퓨팅된 테이블(엔터티라고도 함)은 데이터 흐름의 재사용 가능성을 높이는 데 필수적인 두 가지 고급 기능입니다.
향상된 컴퓨팅 엔진
향상된 컴퓨팅 엔진은 Power BI Premium에서 사용할 수 있는 고급 기능입니다.
Important
때때로 이 문서는 Power BI Premium 또는 P SKU(프리미엄 용량 구독)를 언급합니다. Microsoft는 현재 구매 옵션을 통합하고 용량당 Power BI Premium SKU를 사용 중지하고 있습니다. 신규 및 기존 고객은 대신 F SKU(Fabric 용량 구독)로 구매를 고려해야 합니다.
자세한 내용은 Power BI Premium 라이선싱 관련 중요 업데이트 및 Power BI Premium FAQ를 참조하세요.
향상된 컴퓨팅 엔진은 데이터 흐름을 참조(연결)하는 (동일한 작업 영역 내의) 연결된 테이블의 성능을 향상합니다. 향상된 컴퓨팅 엔진의 이점을 극대화하려면 다음을 수행합니다.
- 준비 데이터 흐름과 변환 데이터 흐름을 분리합니다.
- 동일한 작업 영역을 사용하여 준비 및 변환 데이터 흐름을 저장합니다.
- 쿼리 단계 초기에 쿼리 폴딩이 가능한 복잡한 작업을 적용합니다. 폴딩 가능한 작업에 우선 순위를 부여하면 최상의 새로 고침 성능을 달성하는 데 도움이 될 수 있습니다.
- 증분 새로 고침을 사용하여 새로 고침 기간 및 리소스 소비를 줄입니다.
- 개발 단계 초기에 자주 테스트를 수행합니다.
데이터 흐름 및 의미 체계 모델 새로 고침
데이터 흐름은 의미 체계 모델의 데이터 원본입니다. 대부분의 경우 여러 데이터 새로 고침 일정(각 데이터 흐름에 대한 데이터 새로 고침 일정과 각 의미 체계 모델에 대한 데이터 새로 고침 일정)이 포함됩니다. 또는 의미 체계 모델에서 데이터 흐름으로 DirectQuery를 사용할 수 있습니다. 이 경우 Power BI Premium 및 향상된 컴퓨팅 엔진이 필요합니다(시나리오 다이어그램에 표시되지 않음).
Azure Data Lake Storage Gen2
ADLS Gen2 계정은 계층 구조 네임스페이스를 사용하는 특정 유형의 Azure 스토리지 계정입니다. ADLS Gen2는 분석 워크로드를 운영할 때 성능, 관리 및 보안 이점이 있습니다. 기본적으로 Power BI 데이터 흐름은 Power BI 서비스에서 관리하는 기본 제공 데이터 레이크 계정인 내부 스토리지를 사용합니다. 필요에 따라 조직은 조직 내의 ADLS Gen2 계정에 연결하여 자체 데이터 레이크를 사용할 수 있습니다.
자체 데이터 레이크를 사용하면 다음과 같은 이점이 있습니다.
- 사용자(또는 프로세스)가 데이터 레이크에 저장된 데이터 흐름 데이터에 직접 액세스할 수 있습니다. 이는 Power BI 이외의 데이터 흐름 재사용이 발생할 때 유용합니다. 예를 들어 Azure Data Factory가 데이터 흐름 데이터에 액세스할 수 있습니다.
- 다른 도구 또는 시스템은 데이터 레이크의 데이터를 관리할 수 있습니다. 이 경우 Power BI는 데이터를 관리하는 대신 사용할 수 있습니다(이 시나리오 다이어그램에는 표시되지 않음).
연결된 테이블 또는 컴퓨팅된 테이블을 사용하는 경우 각 작업 영역을 동일한 ADLS Gen2 스토리지 계정에 할당해야 합니다.
참고 항목
ADLS Gen2의 데이터 흐름 데이터는 Power BI 관련 컨테이너에 저장됩니다. 이 컨테이너는 셀프 서비스 데이터 준비 사용 시나리오 다이어그램에 설명되어 있습니다.
관리 포털 설정
관리 포털에서 관리해야 하는 두 가지 중요한 설정이 있습니다.
- Azure 연결: 관리 포털의 Azure 연결 섹션에는 ADLS Gen2 계정에 대한 연결을 구성하는 설정이 포함되어 있습니다. 이 설정을 통해 Power BI 관리자는 자체 데이터 레이크를 데이터 흐름에 사용할 수 있습니다. 구성이 완료되면 작업 영역에서 해당 데이터 레이크 계정을 스토리지에 사용할 수 있습니다.
- 작업 영역 수준 스토리지: Power BI 관리자는 작업 영역 수준 스토리지 권한을 설정할 수 있습니다. 이 설정을 사용하면 작업 영역 관리자는 테넌트 수준에서 설정된 스토리지 계정에 다른 스토리지 계정을 사용할 수 있습니다. 이 설정을 사용하도록 설정하면 Azure에서 자체 데이터 레이크를 관리하는 분산된 사업부에 유용합니다.
게이트웨이 설정
일반적으로 프라이빗 조직 네트워크 또는 가상 네트워크 내에 상주하는 데이터 원본에 연결하려면 온-프레미스 데이터 게이트웨이가 필요합니다.
데이터 게이트웨이는 다음과 같은 경우에 필요합니다.
- Power Query Online에서 프라이빗 조직 데이터에 연결하는 데이터 흐름을 작성합니다.
- 프라이빗 조직 데이터에 연결하는 데이터 흐름을 새로 고칩니다.
시스템 감독
활동 로그는 Power BI 서비스에서 발생하는 사용자 활동을 기록합니다. Power BI 관리자는 수집된 활동 로그 데이터를 사용하여 사용 패턴 및 채택을 이해하는 데 도움이 되는 감사를 수행할 수 있습니다. 활동 로그는 거버넌스 노력, 보안 감사 및 규정 준수 요구 사항을 지원하는 데에도 유용합니다. 고급 데이터 준비 시나리오에서 활동 로그 데이터는 데이터 흐름의 관리 및 사용을 추적하는 데 유용합니다.
관련 콘텐츠
Power BI 구현 결정에 도움이 되는 다른 유용한 시나리오는 Power BI 사용 시나리오 문서를 참조하세요.