Microsoft Fabric에서 데이터 흐름 Gen2 이해
이 시나리오에서는 데이터를 표준화하고 비즈니스에 대한 액세스를 제공할 수 있는 의미 체계 모델을 개발해야 합니다. 데이터 흐름 Gen2를 사용하여 다양한 데이터 원본에 연결한 다음, 데이터를 준비하고 변환할 수 있습니다. 데이터를 레이크하우스에 직접 배치하거나 다른 대상에 대한 데이터 파이프라인을 사용할 수 있습니다.
데이터 흐름이란 무엇인가요?
Dataflows는 확장 가능한 데이터 변환 프로세스를 빌드하고 실행하기 위한 클라우드 기반 ETL(추출, 변환, 로드) 도구의 유형입니다.
데이터 흐름 Gen2를 사용하면 다양한 원본에서 데이터를 추출하고, 다양한 변환 작업을 사용하여 변환하고, 대상에 로드할 수 있습니다. Power Query Online을 사용하면 시각적 인터페이스를 통해 이러한 작업을 수행할 수도 있습니다.
기본적으로 데이터 흐름에는 데이터 준비 시간을 줄이기 위한 모든 변환이 포함되며, 데이터 파이프라인에 포함되거나 데이터 분석가가 데이터 원본으로 사용할 수 있는 새 테이블에 로드할 수 있습니다.
데이터 흐름 Gen2를 사용하는 방법
일반적으로 데이터 엔지니어는 다운스트림 분석을 위해 데이터를 추출하고, 변환하고, 소모성 형식으로 로드하는 데 상당한 시간을 소비합니다. 데이터 흐름 Gen2의 목표는 Power Query Online을 사용하여 ETL 작업을 쉽게 재사용할 수 있는 방법을 제공하는 것입니다.
데이터 파이프라인만 사용하도록 선택하는 경우 데이터를 복사한 다음 기본 코딩 언어를 사용하여 데이터를 추출, 변환, 로드합니다. 또는 먼저 데이터 흐름 Gen2를 만들어 데이터를 추출하고 변환할 수 있습니다. 또한 레이크하우스 및 기타 대상에 데이터를 로드할 수도 있습니다. 이제 비즈니스는 큐레이팅된 의미 체계 모델을 쉽게 사용할 수 있습니다.
데이터 흐름에 데이터 대상을 추가하는 것은 선택 사항이며 데이터 흐름은 모든 변환 단계를 보존합니다. 변환 후 다른 작업을 수행하거나 다른 대상에 데이터를 로드하려면 데이터 파이프라인을 만들고 데이터 흐름 Gen2 작업을 오케스트레이션에 추가합니다.
또 다른 옵션은 ELT(추출, 로드, 변환) 프로세스에 데이터 파이프라인 및 데이터 흐름 Gen2를 사용하는 것입니다. 이 주문의 경우 파이프라인을 사용하여 레이크하우스와 같은 기본 설정 대상에 데이터를 추출하고 로드할 수 있습니다. 그런 다음, 데이터를 정리하고 변환하기 위해 레이크하우스 데이터에 연결하는 데이터 흐름 Gen2를 만듭니다. 이 경우 데이터 분석가가 보고서를 개발할 수 있도록 Dataflow를 큐레이팅된 의미 체계 모델로 제공합니다.
데이터 흐름은 수평으로도 분할할 수 있습니다. 글로벌 데이터 흐름을 만들면 데이터 분석가는 데이터 흐름을 사용하여 특정 요구 사항에 맞게 특수 의미 체계 모델을 만들 수 있습니다.
Dataflows를 사용하면 데이터 원본에 대한 추가 연결을 만들 필요가 없도록 재사용 가능한 ETL 논리를 승격할 수 있습니다. 데이터 흐름은 다양한 변환을 제공하며 새로 고침 일정에 따라 또는 데이터 파이프라인 오케스트레이션의 일부로 수동으로 실행할 수 있습니다.
팁
데이터 흐름을 검색 가능하게 만들어 데이터 분석가도 Power BI Desktop을 통해 데이터 흐름에 연결할 수 있도록 합니다. 이렇게 하면 보고서 개발을 위한 데이터 준비가 줄어듭니다.
혜택 및 제한
Microsoft Fabric의 ETL 또는 ELT 데이터에는 여러 가지 방법이 있습니다. 데이터 흐름 Gen2를 사용할 때의 이점과 제한 사항을 고려합니다.
혜택:
- 표준 날짜 차원 테이블과 같은 일관된 데이터로 데이터를 확장합니다.
- 셀프 서비스 사용자가 데이터 웨어하우스의 하위 집합에 개별적으로 액세스할 수 있도록 허용합니다.
- 데이터 흐름을 통해 성능을 최적화하여 다시 사용을 위해 데이터를 한 번 추출하여 느린 원본의 데이터 새로 고침 시간을 줄입니다.
- 대규모 분석가 그룹에만 데이터 흐름을 노출하여 데이터 원본 복잡성을 간소화합니다.
- 사용자가 데이터를 대상에 로드하기 전에 정리하고 변환할 수 있도록 하여 데이터의 일관성과 품질을 보장합니다.
- 다양한 원본에서 데이터를 수집하는 로우 코드 인터페이스를 제공하여 데이터 통합을 간소화합니다.
제한 사항:
- 데이터 흐름은 데이터 웨어하우스를 바꾸지 않습니다.
- 행 수준 보안은 지원되지 않습니다.
- Fabric 용량 작업 영역이 필요합니다.