Power BI 사용 시나리오: 셀프 서비스 데이터 준비
참고 항목
이 문서는 Power BI 구현 계획 시리즈의 일부를 구성합니다. 이 시리즈는 주로 Microsoft Fabric 내의 Power BI 환경에 중점을 둡니다. 시리즈에 대한 소개는 Power BI 구현 계획을 참조하세요.
원본 데이터의 품질 및 구조에 따라 데이터 준비(추출, 변환 및 로드의 약어인 ETL이라고도 함)에 상당히 많은 작업이 포함되는 경우가 종종 있습니다. 셀프 서비스 데이터 준비 사용 시나리오는 비즈니스 분석가의 데이터 준비 활동 재사용에 중점을 둡니다. 데이터 준비 작업을 Power Query(개별 Power BI Desktop 파일 내)에서 Power Query Online(Power BI 데이터 흐름 사용)으로 재배치하여 이러한 재사용 목표를 달성합니다. 논리를 중앙 집중화하면 단일 정보 출처를 달성하고 다른 콘텐츠 제작자가 요구하는 작업의 수준을 낮출 수 있습니다.
데이터 흐름은 Power BI 서비스, Power Apps 또는 Dynamics 365 Customer Insights와 같은 여러 도구 중 하나에서 Power Query Online을 사용하여 만들어집니다. Power BI에서 만든 데이터 흐름을 분석 데이터 흐름이라고 합니다. Power Apps에서 만든 데이터 흐름은 표준 또는 분석의 두 가지 유형 중 하나입니다. 이 시나리오에서는 Power BI 서비스 내에서 만들고 관리하는 Power BI 데이터 흐름 사용에 대해서만 다룹니다.
참고 항목
셀프 서비스 데이터 준비 시나리오는 셀프 서비스 BI 시나리오 중 하나입니다. 셀프 서비스 시나리오의 전체 목록은 Power BI 사용 시나리오 문서를 참조하세요.
간단히 하기 위해 콘텐츠 협업 및 배달 시나리오 항목에 설명된 몇 가지 측면은 이 문서에서 다루지 않습니다. 전체 범위를 파악할 수 있도록 해당 문서를 먼저 읽어보세요.
시나리오 다이어그램
다음 다이어그램에서는 셀프 서비스 데이터 준비를 지원하는 가장 일반적인 사용자 작업 및 Power BI 구성 요소의 개요를 보여 줍니다. 주요 초점은 파워 쿼리 온라인에서 여러 의미 체계 모델의 데이터 원본이 되는 데이터 흐름을 만드는 것입니다. 목표는 데이터 흐름에서 한 번 수행되는 데이터 준비를 여러 의미 체계 모델에 활용하는 것입니다.
팁
프레젠테이션, 설명서, 블로그 게시물에 포함하려는 경우 시나리오 다이어그램을 다운로드하거나 벽 포스터로 인쇄하는 것이 좋습니다. SVG(확장 가능한 벡터 그래픽) 이미지이므로 품질 손실 없이 스케일 업 또는 스케일 다운할 수 있습니다.
시나리오 다이어그램은 다음과 같은 사용자 작업, 도구 및 기능을 보여 줍니다.
항목 | 묘사 |
---|---|
데이터 흐름 작성자는 Power BI 데이터 흐름 내에서 테이블 컬렉션을 개발합니다. 재사용을 위한 데이터 세트의 경우 필수는 아니지만 작성자가 조직 경계 간에 사용자를 지원하는 중앙 집중화된 팀(예: IT, 엔터프라이즈 BI 또는 우수성 센터)에 속하는 경우가 많습니다. | |
데이터 흐름은 하나 또는 여러 데이터 원본의 데이터에 연결합니다. | |
일부 데이터 원본에는 프라이빗 조직 네트워크 내에 있는 것과 같이 데이터 새로 고침을 위해 온-프레미스 데이터 게이트웨이 또는 VNet Gateway가 필요할 수 있습니다. 이러한 게이트웨이는 Power Query의 웹 기반 버전인 Power Query 온라인에서 데이터 흐름을 작성하고 데이터 흐름을 새로 고치는 데 사용됩니다. | |
데이터 흐름은 Power Query 온라인을 사용하여 개발됩니다. Power Query Online의 익숙한 Power Query 인터페이스를 사용하여 Power BI Desktop에서 쉽게 전환할 수 있습니다. | |
데이터 흐름은 데이터 흐름을 저장하고 보호하는 데 사용되는 전용 항목으로 작업 영역에 저장됩니다. 데이터를 최신 상태로 유지하려면 데이터 흐름 새로 고침 일정이 필요합니다(이 시나리오 다이어그램에는 표시되지 않음). | |
데이터 흐름은 콘텐츠 작성자와 다른 작업 영역에 상주할 수 있는 다른 의미 체계 모델에 의해 데이터 원본으로 재사용될 수 있습니다. | |
의미 체계 모델 작성자는 Power BI Desktop을 사용하여 새 데이터 모델을 개발합니다. 의미 체계 모델 작성자는 Power BI Desktop 내에서 Power Query의 모든 기능을 사용할 수 있습니다. 선택적으로 다른 쿼리 단계를 적용하여 데이터 흐름 데이터를 추가로 변환하거나 데이터 흐름 출력을 병합할 수 있습니다. | |
준비가 되면 의미 체계 모델 작성자는 데이터 모델이 포함된 Power BI Desktop 파일(.pbix)을 Power BI 서비스 게시합니다. 의미 체계 모델의 새로 고침은 데이터 흐름과 별도로 관리됩니다(이 시나리오 다이어그램에는 표시되지 않음). | |
다른 셀프 서비스 의미 체계 모델 작성자는 Power BI Desktop에서 데이터 흐름을 데이터 원본으로 사용하여 새 데이터 모델을 만들 수 있습니다. | |
관리 포털에서 Power BI 관리자는 ADLS Gen2(Azure Data Lake Storage Gen2) 계정에 데이터 흐름 데이터를 저장하도록 Azure 연결을 설정할 수 있습니다. 설정에는 테넌트 수준 스토리지 계정을 할당하고 작업 영역 수준 스토리지 권한을 사용하도록 설정하는 것이 포함됩니다. | |
Power BI 관리자는 관리 포털에서 설정을 관리합니다. | |
기본적으로 데이터 흐름은 Power BI 서비스에서 관리되는 내부 스토리지를 사용하여 데이터를 저장합니다. 필요에 따라 데이터 흐름에서 출력한 데이터를 조직의 ADLS Gen2 계정에 저장할 수 있습니다. 이러한 유형의 스토리지를 자체 데이터 레이크라고도 합니다. 데이터 흐름 데이터를 데이터 레이크에 저장하면 다른 BI 도구에서 액세스하고 사용할 수 있다는 이점이 있습니다. | |
ADLS Gen2의 데이터 흐름 데이터는 파일 시스템이라고 하는 Power BI 관련 컨테이너에 저장됩니다. 이 컨테이너 내에는 각 작업 영역에 대한 폴더가 있습니다. 각 테이블뿐만 아니라 각 데이터 흐름에 대한 하위 폴더가 만들어집니다. Power BI는 데이터 흐름 데이터를 새로 고침될 때마다 스냅샷을 생성합니다. 스냅샷은 자체 설명적이며 메타데이터와 데이터 파일로 구성됩니다. | |
Azure 관리자는 조직의 ADLS Gen2 계정에 대한 권한을 관리합니다. | |
Power BI 관리자는 Power BI 서비스 활동을 감독하고 모니터링합니다. |
팁
고급 데이터 준비 사용 시나리오도 검토하는 것이 좋습니다. 고급 데이터 준비 시나리오는 이 시나리오에 도입된 개념을 기반으로 합니다.
핵심 내용
다음은 셀프 서비스 데이터 준비 시나리오에 대해 강조할 몇 가지 핵심 사항입니다.
데이터 흐름
데이터 흐름은 테이블(엔터티라고도 함) 컬렉션으로 구성됩니다. 데이터 흐름을 만드는 모든 작업은 Power Query Online에서 수행됩니다. Power Apps, Dynamics 365 Customer Insights 및 Power BI를 비롯한 여러 제품에서 데이터 흐름을 만들 수 있습니다.
참고 항목
Power BI 서비스의 개인 작업 영역에서는 데이터 흐름을 만들 수 없습니다.
의미 체계 모델 작성자 지원
이 시나리오 다이어그램은 Power BI 데이터 흐름을 사용하여 다른 셀프 서비스 의미 체계 모델 작성자에게 준비된 데이터를 제공하는 방법을 보여 줍니다.
참고 항목
의미 체계 모델은 데이터 흐름을 데이터 원본으로 사용합니다. 보고서는 데이터 흐름에 직접 연결할 수 없습니다.
Power BI 데이터 흐름을 사용하면 다음과 같은 장점이 있습니다.
- 의미 체계 모델 작성자는 익숙한 Power BI Desktop과 동일한 Power Query 인터페이스를 사용합니다.
- 데이터 흐름에서 정의한 데이터 준비 및 데이터 변환 논리는 중앙 집중식이므로 여러 번 재사용할 수 있습니다.
- 데이터 흐름의 데이터 준비 논리를 변경할 때 종속 데이터 모델을 업데이트할 필요가 없는 경우도 있습니다. 열을 제거 또는 이름을 바꾸거나 열 데이터 형식을 변경하려면 종속 데이터 모델을 반드시 업데이트해야 합니다.
- 미리 준비된 데이터를 Power BI 의미 체계 모델 작성자에게 쉽게 제공할 수 있습니다. 재사용은 일반적으로 사용되는 테이블, 특히 날짜, 고객 및 제품과 같은 차원 테이블에 유용합니다.
- 데이터 준비 작업이 데이터 모델링 작업에서 분리되었기 때문에 의미 체계 모델 작성자가 요구하는 작업 수준이 줄어듭니다.
- 원본 시스템에 직접 액세스해야 하는 의미 체계 모델 작성자가 줄어듭니다. 원본 시스템은 쿼리가 복잡할 수 있으며 특수한 액세스 권한이 필요할 수 있습니다.
- 의미 체계 모델 새로 고침이 데이터 흐름에서 데이터를 추출하는 원본 시스템이 아닌 데이터 흐름에 연결하기 때문에 원본 시스템에서 실행되는 새로 고침 수가 줄어듭니다.
- 데이터 흐름 데이터는 스냅샷 시간을 나타내며, 많은 의미 체계 모델에 사용되는 경우 일관성을 높입니다.
- 데이터 준비 논리를 데이터 흐름으로 분리하면 의미 체계 모델 새로 고침 성공을 개선하는 데 도움이 될 수 있습니다. 데이터 흐름 새로 고침이 실패하면 마지막으로 성공한 데이터 흐름 새로 고침을 사용하여 의미 체계 모델이 새로 고쳐집니다.
팁
별모양 스키마 디자인 원칙을 적용하여 데이터 흐름 테이블을 만드세요. 별모양 스키마 디자인은 Power BI 의미 체계 모델을 만드는 데 적합합니다. 또한 데이터 흐름 출력을 구체화하여 식별 이름을 적용하고 특정 데이터 형식을 사용하세요. 이러한 기술은 종속 의미 체계 모델의 일관성을 촉진하고 의미 체계 모델 작성자가 수행해야 하는 작업량을 줄이는 데 도움이 됩니다.
의미 체계 모델 작성자의 유연성
의미 체계 모델 작성자가 Power BI Desktop에서 데이터 흐름에 연결할 때, 작성자는 정확한 데이터 흐름 출력을 사용하도록 제한되지 않습니다. 데이터 세트 작성자는 여전히 Power Query의 모든 기능을 사용할 수 있습니다. 이 기능은 추가 데이터 준비 작업이 필요하거나 데이터를 추가로 변환해야 하는 경우에 유용합니다.
데이터 흐름 고급 기능
셀프 서비스에서 엔터프라이즈 준비로 가져올 수 있는 데이터 흐름에 대한 여러 가지 디자인 기술, 패턴 및 모범 사례가 있습니다. 라이선스 모드가 사용자 단위 Premium, 프리미엄 용량 또는 Fabric 용량으로 설정된 작업 영역의 데이터 흐름은 유용한 기능의 이점을 활용할 수 있습니다.
Important
때때로 이 문서는 Power BI Premium 또는 P SKU(프리미엄 용량 구독)를 언급합니다. Microsoft는 현재 구매 옵션을 통합하고 용량당 Power BI Premium SKU를 사용 중지하고 있습니다. 신규 및 기존 고객은 대신 F SKU(Fabric 용량 구독)로 구매를 고려해야 합니다.
자세한 내용은 Power BI Premium 라이선스 관련 중요 업데이트 및 Power BI Premium FAQ를 참조하세요.
참고 항목
고급 기능 중 하나는 데이터 흐름의 증분 새로 고침입니다. 의미 체계 모델의 증분 새로 고침은 Power BI Pro 기능이지만, 데이터 흐름의 증분 새로 고침은 프리미엄 기능입니다.
데이터 흐름 고급 기능에 대한 자세한 내용은 고급 데이터 준비 사용 시나리오를 참조하세요.
데이터 흐름 및 의미 체계 모델 새로 고침
앞서 언급했듯이, 데이터 흐름은 의미 체계 모델의 데이터 원본입니다. 대부분의 경우 여러 데이터 새로 고침 일정(각 데이터 흐름에 대한 데이터 새로 고침 일정과 각 의미 체계 모델에 대한 데이터 새로 고침 일정)이 포함됩니다. 또는 의미 체계 모델의 DirectQuery를 프리미엄 기능인 데이터 흐름에 사용할 수 있습니다(이 시나리오 다이어그램에는 표시되지 않음).
Azure Data Lake Storage Gen2
Microsoft Azure에서 ADLS Gen2 계정은 계층 구조 네임스페이스를 사용하는 특정 유형의 Azure Storage 계정입니다. ADLS Gen2는 분석 워크로드를 운영할 때 성능, 관리 및 보안 이점이 있습니다. 기본적으로 Power BI 데이터 흐름은 Power BI 서비스에서 관리하는 기본 제공 데이터 레이크 계정인 내부 스토리지를 사용합니다. 필요에 따라 조직은 조직의 ADLS Gen2 계정에 연결하여 자체 데이터 레이크를 가져올 수 있습니다.
조직의 데이터 레이크 계정을 사용하면 다음과 같은 이점이 있습니다.
- Power BI 데이터 흐름에 의해 저장된 데이터는 (선택적으로) 다른 사용자 또는 프로세스가 데이터 레이크에서 액세스할 수 있습니다. 이는 Power BI 이외의 데이터 흐름 재사용이 발생할 때 유용합니다. 예를 들어 Azure Data Factory에서 데이터에 액세스할 수 있습니다.
- 데이터 레이크의 데이터는 (선택적으로) 다른 도구 또는 시스템에서 관리할 수 있습니다. 이 경우 Power BI는 데이터를 관리하는 대신 사용할 수 있습니다(이 시나리오 다이어그램에는 표시되지 않음).
테넌트 수준 스토리지
관리 포털의 Azure 연결 섹션에는 ADLS Gen2 계정에 대한 연결을 구성하는 설정이 포함되어 있습니다. 이 설정을 구성하면 자체 데이터 레이크를 가져올 수 있습니다. 설정한 후에는 해당 데이터 레이크 계정 사용하도록 작업 영역을 설정할 수 있습니다.
Important
Azure 연결을 설정한다고 해서 Power BI 테넌트의 모든 데이터 흐름이 기본적으로 이 계정에 저장되는 것은 아닙니다. 내부 스토리지 대신 명시적 스토리지 계정을 사용하려면 각 작업 영역을 구체적으로 연결해야 합니다.
작업 영역에서 데이터 흐름을 만들기 전에 작업 영역 Azure 연결을 설정하는 것이 중요합니다. 동일한 Azure Storage 계정이 Power BI 의미 체계 모델 백업에 사용됩니다.
작업 영역 수준 스토리지
Power BI 관리자는 관리 포털의 Azure 연결 섹션에서 작업 영역 수준 스토리지 권한을 허용하도록 설정을 구성할 수 있습니다. 이 설정을 사용하면 작업 영역 관리자가 테넌트 수준에서 정의된 스토리지 계정이 아닌 다른 스토리지 계정을 사용할 수 있습니다. 이 설정을 사용하도록 설정하면 Azure에서 자체 데이터 레이크를 관리하는 분산된 사업부에 특히 유용합니다.
참고 항목
관리 포털의 작업 영역 수준 스토리지 권한은 Power BI 테넌트의 모든 작업 영역에 적용됩니다.
Common Data Model 형식
ADLS Gen2 계정의 데이터는 CDM(Common Data Model) 구조에 저장됩니다. CDM 구조는 자체 설명 스키마와 데이터를 저장하는 방법을 지시하는 메타데이터 형식입니다. CDM 구조는 다양한 애플리케이션 간에 데이터를 공유하기 위해 표준화된 형식으로 의미 체계 일관성을 지원합니다(이 시나리오 다이어그램에는 표시되지 않음).
별도의 작업 영역에 게시
종속 의미 체계 모델이 저장되는 위치와 분리된 작업 영역에 데이터 흐름을 게시하면 몇 가지 이점이 있습니다. 그 중 하나는 누가 어떤 종류의 콘텐츠를 관리할 책임이 있는지 명확하게 알 수 있는 명확성입니다(다른 책임을 맡고 있는 다른 사람이 더 있는 경우). 또 다른 장점은 각 콘텐츠 유형에 대해 특정 작업 영역 권한을 할당할 수 있다는 것입니다.
참고 항목
Power BI 서비스의 개인 작업 영역에서는 데이터 흐름을 만들 수 없습니다.
고급 데이터 준비 사용 시나리오에서는 엔터프라이즈 수준 셀프 서비스 작성자를 지원할 때 보다 나은 유연성을 제공할 수 있도록 여러 작업 영역을 설정하는 방법을 설명합니다.
게이트웨이 설정
일반적으로 프라이빗 조직 네트워크 또는 가상 네트워크 내에 상주하는 데이터 원본에 연결하려면 온-프레미스 데이터 게이트웨이가 필요합니다.
데이터 게이트웨이는 다음과 같은 경우에 필요합니다.
- Power Query Online에서 프라이빗 조직 데이터에 연결하는 데이터 흐름을 작성합니다.
- 프라이빗 조직 데이터에 연결하는 데이터 흐름을 새로 고칩니다.
시스템 감독
활동 로그는 Power BI 서비스에서 발생하는 사용자 활동을 기록합니다. Power BI 관리자는 수집된 활동 로그 데이터를 사용하여 사용 패턴 및 채택을 이해하는 데 도움이 되는 감사를 수행할 수 있습니다. 활동 로그는 거버넌스 노력, 보안 감사 및 규정 준수 요구 사항을 지원하는 데에도 유용합니다. 셀프 서비스 데이터 준비 시나리오에서는 데이터 흐름의 사용을 추적하는 것이 특히 유용합니다.
관련 콘텐츠
이 시리즈의 다음 문서에서는 고급 데이터 준비 사용 시나리오에 대해 알아봅니다.