데이터 흐름이란?
팁
엔터프라이즈를 위한 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory에서 Dataflow Gen2를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!
데이터 흐름은 셀프 서비스, 클라우드 기반 데이터 준비 기술입니다. 데이터 흐름을 통해 고객은 Microsoft Dataverse 환경, Power BI 작업 영역 또는 조직의 Azure Data Lake Storage 계정으로 데이터를 수집, 변환 및 로드할 수 있습니다. 데이터 흐름은 Excel 및 Power BI를 포함한 많은 Microsoft 제품에 이미 있는 통합 데이터 연결 및 준비 환경인 Power Query를 사용하여 작성됩니다. 고객은 요청 시 또는 일정에 따라 자동으로 실행되도록 데이터 흐름을 트리거할 수 있습니다. 데이터는 항상 최신 상태로 유지됩니다.
여러 Microsoft 제품에서 데이터 흐름을 만들 수 있습니다.
데이터 흐름은 여러 Microsoft 제품에 포함되며 데이터 흐름 관련 라이선스를 만들거나 실행할 필요가 없습니다. 데이터 흐름은 Power Apps, Power BI 및 Dynamics 365 Customer Insights에서 사용할 수 있습니다. 데이터 흐름을 만들고 실행하는 기능은 해당 제품의 라이선스와 함께 제공됩니다. 데이터 흐름 기능은 주로 추천되는 모든 제품에서 일반적이지만 일부 제품별 기능은 한 제품과 다른 제품에서 만든 데이터 흐름에 있을 수 있습니다.
데이터 흐름은 어떻게 작동하나요?
이전 이미지는 데이터 흐름이 정의되는 방법에 대한 전체 보기를 보여 줍니다. 데이터 흐름은 다른 데이터 원본에서 데이터를 가져옵니다(이미 80개 이상의 데이터 원본이 지원됨). 그런 다음 파워 쿼리 작성 환경으로 구성된 변환에 따라 데이터 흐름은 데이터 흐름 엔진을 사용하여 데이터를 변환합니다. 마지막으로 데이터는 Microsoft Power Platform 환경, Power BI 작업 영역 또는 조직의 Azure Data Lake Storage 계정일 수 있는 출력 대상으로 로드됩니다.
클라우드에서 실행되는 데이터 흐름
데이터 흐름은 클라우드 기반입니다. 데이터 흐름이 작성되고 저장되면 해당 정의가 클라우드에 저장됩니다. 데이터 흐름도 클라우드에서 실행됩니다. 그러나 데이터 원본이 온-프레미스인 경우 온-프레미스 데이터 게이트웨이를 사용하여 데이터를 클라우드로 추출할 수 있습니다. 데이터 흐름 실행이 트리거되면 클라우드에서 데이터 변환 및 계산이 수행되고 대상은 항상 클라우드에 있습니다.
데이터 흐름은 강력한 변환 엔진을 사용합니다.
파워 쿼리는 데이터 흐름에 사용되는 데이터 변환 엔진입니다. 이 엔진은 많은 고급 변환을 지원할 수 있습니다. 또한 Power Query 편집기 이라는 간단하면서도 강력한 그래픽 사용자 인터페이스를 사용합니다. 이 편집기에서 데이터 흐름을 사용하여 데이터 통합 솔루션을 더 빠르고 쉽게 개발할 수 있습니다.
Microsoft Power Platform 및 Dynamics 365와 데이터 흐름 통합
데이터 흐름은 결과 테이블을 클라우드 기반 스토리지에 저장하므로 다른 서비스는 데이터 흐름에서 생성된 데이터와 상호 작용할 수 있습니다.
예를 들어, Power BI, Power Apps, Power Automate, Power Virtual Agents 및 Dynamics 365 애플리케이션은 데이터 흐름 생성 시간에 구성된 대상에 따라 Power Platform 데이터 흐름 커넥터인 Dataverse에 연결하거나 레이크를 통해 직접 연결하여 데이터 흐름에 의해 생성된 데이터를 가져올 수 있습니다.
데이터 흐름의 이점
다음 목록에서는 데이터 흐름 사용의 몇 가지 이점을 보여줍니다.
데이터 흐름은 Power BI 솔루션의 모델링 및 시각화 계층에서 데이터 변환 계층을 분리합니다.
데이터 변환 코드는 여러 아티팩트 간에 분산되지 않고 중앙 위치인 데이터 흐름에 상주할 수 있습니다.
데이터 흐름 작성자에게는 Power Query 기술만 필요합니다. 여러 작성자가 있는 환경에서 데이터 흐름 작성자는 전체 BI 솔루션 또는 운영 애플리케이션을 함께 빌드하는 팀의 일원이 될 수 있습니다.
데이터 흐름은 제품에 구애받지 않습니다. Power BI의 구성 요소만이 아닙니다. 다른 도구 및 서비스에서 해당 데이터를 가져올 수 있습니다.
데이터 흐름은 강력한 그래픽 셀프 서비스 데이터 변환 환경인 Power Query를 활용합니다.
데이터 흐름은 전적으로 클라우드에서 실행됩니다. 추가적인 인프라가 필요하지 않습니다.
Power Apps, Power BI 및 Customer Insights 라이선스를 사용하여 데이터 흐름 작업을 시작하기 위한 여러 옵션이 있습니다.
데이터 흐름은 고급 변환이 가능하지만 셀프 서비스 시나리오용으로 설계되었으며 IT 또는 개발자 배경이 필요하지 않습니다.
데이터 흐름에 대한 사용 사례 시나리오
여러 용도로 데이터 흐름을 사용할 수 있습니다. 다음 시나리오에서는 데이터 흐름에 대한 일반적인 사용 사례의 몇 가지 예를 제공합니다.
레거시 시스템에서 데이터 마이그레이션
이 시나리오에서는 조직에서 레거시 온-프레미스 시스템이 아닌 새 사용자 인터페이스 환경에 Power Apps를 사용하도록 결정했습니다. Power Apps, Power Automate 및 AI Builder는 모두 Dataverse를 기본 데이터 스토리지 시스템으로 사용합니다. 기존 온-프레미스 시스템의 현재 데이터는 데이터 흐름을 사용하여 Dataverse로 마이그레이션할 수 있으며 이러한 제품은 해당 데이터를 사용할 수 있습니다.
데이터 흐름을 사용하여 데이터 웨어하우스 빌드
데이터 흐름을 다른 ETL(추출, 변환, 로드) 도구의 대체로 사용하여 데이터 웨어하우스를 빌드할 수 있습니다. 이 시나리오에서 회사의 데이터 엔지니어는 데이터 흐름을 사용하여 Data Lake Storage의 팩트 및 차원 테이블을 포함하여 스타 스키마가 디자인된 데이터 웨어하우스를 빌드하기로 결정합니다. 그런 다음 Power BI를 사용하여 데이터 흐름에서 데이터를 가져오면 보고서 및 대시보드를 생성합니다.
데이터 흐름을 사용하여 차원 모델 빌드
데이터 흐름을 다른 ETL 도구의 대체로 사용하여 차원 모델을 빌드할 수 있습니다. 예를 들어 회사의 데이터 엔지니어는 데이터 흐름을 사용하여 Azure Data Lake Storage Gen2의 팩트 및 차원 테이블을 포함하여 별모양 스키마 디자인 차원 모델을 빌드하기로 결정합니다. 그런 다음 Power BI를 사용하여 데이터 흐름에서 데이터를 가져오면 보고서 및 대시보드를 생성합니다.
여러 Power BI 솔루션에서 데이터 준비 및 의미 체계 모델 재사용 중앙 집중화
여러 Power BI 솔루션이 동일한 변환된 버전의 테이블을 사용하는 경우 테이블을 만드는 프로세스가 여러 번 반복됩니다. 이렇게 하면 원본 시스템의 부하가 증가하고, 더 많은 리소스가 사용되며, 여러 실패 지점이 있는 중복 데이터가 생성됩니다. 대신 단일 데이터 흐름을 만들어 모든 솔루션에 대한 데이터를 계산할 수 있습니다. 그런 다음 Power BI는 모든 솔루션에서 변환 결과를 다시 사용할 수 있습니다. 이러한 방식으로 사용되는 경우 데이터 흐름은 파워 쿼리 코드 중복을 방지하고 데이터 통합 계층의 기본 테넌트 비용을 줄이는 강력한 Power BI 구현 아키텍처의 일부가 될 수 있습니다.
다음 단계
다음 문서에서는 데이터 흐름에 대한 추가 연구 자료를 제공합니다.