Microsoft Fabric의 그린필드 레이크하우스

Microsoft Fabric

Power BI

이 예제 워크로드에서는 Microsoft Fabric 및 Lakehouse 디자인 패러다임을 사용하여 확장 가능한 데이터 플랫폼을 만들기 위한 그린필드 솔루션을 보여 줍니다. 패브릭은 데이터 스토리지, 처리 및 분석을 통합하는 플랫폼입니다. 그린필드 레이크하우스는 효율적이고 미래 지향적인 데이터 에코시스템을 설계하기 위한 깨끗한 시작을 제공합니다.

아키텍처

Microsoft Fabric의 Lakehouse 디자인 패러다임을 사용하여 강력하고 확장 가능한 데이터 플랫폼을 빌드하기 위한 그린필드 솔루션을 보여 주는 다이어그램.

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

이 디자인은 데이터 처리를 두 계층으로 구분하는 람다 아키텍처를 반영합니다.

기록 분석을 위해 주기적으로 처리되는 대용량 일괄 처리 계층
실시간 분석을 위한 대기 시간이 짧고 처리량이 높은 스트림 처리 계층

스트림 처리 경로는 거의 실시간으로 데이터를 수집하고 처리하므로 대시보드 및 변칙 검색에 적합합니다. 일괄 처리 경로는 전체 데이터 세트를 처리하여 데이터 일관성을 보장하고 복잡한 기록 분석을 사용하도록 설정합니다. 이 두 갈래의 접근 방식은 나중에 탐색할 수 있는 신뢰할 수 있는 레코드를 유지하면서 실시간 인사이트를 제공합니다.

콜드 경로: Batch 분석

관계형 SQL 의미 체계를 사용하는 데이터 웨어하우스는 기록 데이터 분석을 위한 기존의 접근 방식입니다. 그러나 이 패턴은 시간이 지남에 따라 발전해 왔으며, 레이크하우스는 일괄 처리 데이터 분석의 현재 업계 표준입니다. 레이크하우스는 오픈 소스 파일 형식을 기반으로 하며 기존 데이터 웨어하우스와 달리 구조화되고 반구조화되고 구조화되지 않은 모든 유형의 데이터를 수용합니다. 레이크하우스의 컴퓨팅 계층은 일반적으로 분산 컴퓨팅 기능과 고성능으로 인해 빅 데이터 처리를 위한 기본 엔진인 Apache Spark 프레임워크를 기반으로 합니다. Fabric은 오픈 소스 Delta Lake 파일 형식 및 관리형 Spark 런타임을 기반으로 하는 네이티브 레이크하우스 환경을 제공합니다.

레이크하우스 구현은 일반적으로 medallion 아키텍처를 사용합니다. 이 아키텍처에서 브론즈 계층에는 원시 데이터가 포함되고, 실버 계층에는 유효성이 검사되고 중복 제거된 데이터가 포함되며, 골드 계층에는 비즈니스 지향 사용 사례를 지원하는 데 적합한 고도로 세련된 데이터가 포함됩니다. 이 접근 방식은 모든 조직 및 산업에서 작동합니다. 일반적인 방법이지만 요구 사항에 맞게 사용자 지정할 수 있습니다. 이 아키텍처는 네이티브 패브릭 구성 요소를 사용하여 레이크하우스를 만드는 방법을 보여 줍니다.

Data Factory를 통한 데이터 수집

(다이어그램의 1단계를 참조하세요.)

Fabric의 Azure Data Factory 기능은 널리 사용되는 데이터 통합 서비스인 Azure Data Factory 서비스의 기능을 제공합니다. Data Factory 서비스는 주로 파이프라인을 통해 오케스트레이션 기능을 제공하지만 Fabric의 기능은 파이프라인과 데이터 흐름을 모두 제공합니다.

데이터 파이프라인을 사용하면 기본 제공 데이터 오케스트레이션 기능을 적용하여 엔터프라이즈 요구 사항을 충족하는 유연한 데이터 워크플로를 작성할 수 있습니다.
데이터 흐름을 사용하면 데이터 흐름 디자이너에서 300개 이상의 변환을 사용할 수 있습니다. 이러한 변환을 사용하여 파워 쿼리의 그래픽 인터페이스와 유사한 그래픽 인터페이스를 사용하여 데이터를 변환할 수 있습니다. 이러한 변환에는 스마트 AI 기반 데이터 변환이 포함됩니다. 데이터 흐름은 Lakehouse, Warehouse, Azure SQL 및 Kusto 데이터베이스와 같은 패브릭의 네이티브 데이터 저장소에 데이터를 쓸 수도 있습니다.

요구 사항에 따라 이러한 기능 중 하나 또는 둘 다를 사용하여 풍부한 메타데이터 기반 수집 프레임워크를 만들 수 있습니다. 정의된 일정에 따라 또는 이벤트 트리거를 사용하여 다양한 원본 시스템의 데이터를 온보딩할 수 있습니다.

데이터 변환

(다이어그램의 2단계를 참조하세요.)

데이터 준비 및 변환에는 두 가지 방법이 있습니다. 코드 우선 환경을 선호하는 경우 Spark Notebook을 사용할 수 있습니다. 코드가 낮거나 코드가 없는 환경을 선호하는 경우 데이터 흐름을 사용할 수 있습니다.

패브릭 Notebook은 Apache Spark 작업을 개발하기 위한 중요한 도구입니다. 데이터 엔지니어가 코드를 작성하는 데 사용하는 웹 기반 대화형 화면을 제공합니다. 또한 풍부한 시각화를 제공하고 Markdown 텍스트를 사용할 수 있습니다. 데이터 엔지니어는 데이터 수집, 데이터 준비 및 데이터 변환을 위한 코드를 작성합니다. 데이터 과학자는 Notebook을 사용하여 기계 학습 솔루션을 만듭니다. 예를 들어 실험 및 모델을 만들고 모델을 추적하고 배포하는 데 사용합니다.

Fabric의 모든 작업 영역에는 기본 Spark 작업에 사용되는 Spark 시작 풀이 함께 제공됩니다. 시작 풀을 사용하면 수동 설정 없이 일반적으로 5~10초 이내에 빠른 Apache Spark 세션 초기화를 기대할 수 있습니다. 또한 데이터 엔지니어링 요구 사항에 따라 Apache Spark 풀을 유연하게 사용자 지정할 수 있습니다. Spark 작업 요구 사항에 따라 노드 크기를 조정하고, 자동 크기 조정하고, 실행기를 동적으로 할당할 수 있습니다. Spark 런타임 사용자 지정의 경우 환경을 사용할 수 있습니다. 환경에서는 컴퓨팅 속성을 구성하고, 다른 런타임을 선택하고, 워크로드 요구 사항에 따라 라이브러리 패키지 종속성을 설정할 수 있습니다.

데이터 흐름을 사용하면 다양한 원본에서 데이터를 추출하고, 다양한 작업을 사용하여 데이터를 변환하고, 필요에 따라 대상에 로드할 수 있습니다. 일반적으로 데이터 엔지니어는 다운스트림 분석을 위해 데이터를 추출하고, 변환하고, 소모성 형식으로 로드하는 데 상당한 시간을 소비합니다. Dataflow Gen2는 파워 쿼리 온라인의 시각적 신호를 사용하여 ETL(추출, 변환, 로드) 작업을 수행하는 쉽고 재사용 가능한 방법을 제공합니다. 데이터 흐름은 모든 변환 단계를 유지합니다. 변환 후 다른 작업을 수행하거나 다른 대상으로 데이터를 로드하려면 데이터 파이프라인을 만들고 Dataflow Gen2 작업을 파이프라인 오케스트레이션에 추가합니다.

핫 경로: 실시간 분석

실시간 데이터 처리는 민첩성을 유지하고, 정보에 입각한 결정을 신속하게 내리고, 즉각적인 인사이트를 활용하여 운영 및 고객 환경을 개선하려는 비즈니스에 매우 중요합니다. 패브릭에서 이 기능은 실시간 인텔리전스 서비스에서 제공합니다. 함께 번들로 묶이고 실시간 허브를 통해 액세스할 수 있는 여러 패브릭 기능으로 구성됩니다. 실시간 허브는 조직 전체에서 이동 중인 데이터를 스트리밍하기 위한 단일 위치를 제공합니다.

패브릭의 실시간 인텔리전스를 사용하면 이벤트 기반 시나리오, 스트리밍 데이터 및 데이터 로그에 대한 분석 및 데이터 시각화가 가능합니다. 코드 없는 커넥터 카탈로그를 사용하여 다양한 원본의 시간 기반 데이터를 연결하고 데이터 수집, 변환, 스토리지, 분석, 시각화, 추적, AI 및 실시간 작업을 위한 엔드 투 엔드 솔루션을 제공합니다. 서비스 이름은 "실시간"이라는 구를 사용하지만 데이터는 높은 속도와 볼륨으로 스트리밍할 필요가 없습니다. 실시간 인텔리전스는 일정 기반 솔루션 대신 이벤트 기반 솔루션을 제공합니다.

실시간 수집

(다이어그램의 3단계를 참조하세요.)

이벤트 스트림 은 다양한 소스에서 실시간 이벤트를 수집하고 다른 대상으로 보내기 위한 코드 없는 메서드를 사용하도록 설정하는 패브릭 기능입니다. 콘텐츠를 기반으로 데이터 필터링, 변환, 집계 및 라우팅을 허용합니다. 또한 이를 사용하여 기존 스트림에서 새 스트림을 만들고 실시간 허브를 사용하여 조직 전체에서 공유할 수 있습니다. Eventstreams는 여러 데이터 원본 및 데이터 대상을 지원합니다. Apache Kafka 클러스터, 데이터베이스 변경 데이터 캡처 피드, AWS 스트리밍 원본(Kinesis) 및 Google(GCP Pub/Sub)과 같은 외부 원본에 대한 광범위한 커넥터를 사용할 수 있습니다.

eventstream을 만들고, 스트림에 이벤트 데이터 원본을 추가하고, 필요에 따라 변환을 추가하여 이벤트 데이터를 변환한 다음, 지원되는 대상으로 데이터를 라우팅합니다. 패브릭 레이크하우스는 지원되는 목적지 중 하나이므로 실시간 이벤트를 레이크하우스로 수집하기 전에 변환할 수 있습니다. 실시간 이벤트는 Delta Lake 형식으로 변환된 다음 지정된 레이크하우스 테이블에 저장됩니다. 이 패턴을 사용하면 빠르게 움직이는 데이터의 데이터 웨어하우징 시나리오 및 기록 분석을 수행할 수 있습니다.

실시간 분석

(다이어그램의 4단계를 참조하세요.)

패브릭에서 실시간 인텔리전스를 사용하는 경우 사용 사례에 따라 스트리밍 데이터에 대한 일반적인 경로인 Reflex 항목 및 이벤트 하우스가 있습니다.

반사는 발생하는 데이터 조건의 발생에 대응할 수 있는 패브릭 항목입니다. 이러한 반응은 전자 메일 또는 Microsoft Teams를 통한 간단한 경고 메시지이거나 Power Automate 흐름을 트리거하여 사용자 지정 작업을 호출하는 작업이 포함될 수 있습니다. 반사에서 패브릭 항목을 트리거할 수도 있습니다. 많은 관찰성 사용 사례는 리플렉스에서 지원되며, 그 중 하나는 이벤트 스트림에 도착할 때 스트리밍 데이터에 반응하는 것입니다.

Eventhouse는 하나 이상의 KQL(Kusto 쿼리 언어) 데이터베이스의 컬렉션입니다. KQL 데이터베이스는 구조적, 반구조적 및 비구조적 데이터의 시간 기반 스트리밍 이벤트를 위해 엔지니어링됩니다. 데이터는 수집 시간에 따라 자동으로 인덱싱되고 분할되므로 데이터가 스트리밍되는 경우에도 빠르고 복잡한 분석 쿼리 기능을 제공합니다. 이벤트 하우스에 저장된 데이터는 다른 패브릭 프로세스에서 사용하기 위해 OneLake에서 사용할 수 있습니다. 패브릭에서 KQL 쿼리 세트의 네이티브 KQL 및 T-SQL을 비롯한 다양한 코드, 하위 코드 또는 코드 없음 옵션을 사용하여 이 데이터를 쿼리할 수 있습니다.

실시간 대시보드는 데이터 스트리밍에서 이벤트하우스로의 즉각적인 인사이트를 제공하도록 설계되었습니다. 차트 및 그래프와 같은 다양한 유형의 시각적 개체를 대시보드에 추가하고 필요에 맞게 사용자 지정할 수 있습니다. 실시간 대시보드는 이벤트 하우스에 도착하는 고속 데이터의 추세 및 변칙을 신속하게 식별하는 특정 목적을 제공합니다. 엔터프라이즈 BI 보고 워크로드에 적합한 Power BI 대시보드와 다릅니다.

데이터 서비스

(다이어그램의 5단계를 참조하세요.)

패브릭 레이크하우스 및 이벤트 하우스에서 데이터를 사용하는 데 사용할 수 있는 다양한 하위 코드 또는 프로 코드 옵션이 있습니다.

SQL 분석 끝점

SQL 분석 엔드포인트는 패브릭의 모든 레이크하우스에 대해 자동으로 생성됩니다. SQL 분석 엔드포인트는 읽기 전용입니다. 데이터를 수정하려면 레이크하우스 모드로 전환하고 Spark를 사용해야 합니다. Lakehouse 모드에서 lakehouse의 SQL 모드로 전환하여 패브릭 포털에서 직접 SQL 분석 엔드포인트를 사용하여 데이터를 쿼리할 수 있습니다. 또는 Lakehouse의 SQL 연결 문자열 사용하여 Power BI, Excel 및 SQL Server Management Studio와 같은 클라이언트 도구를 사용하여 연결할 수 있습니다. 이 옵션은 데이터 팀의 데이터 및 비즈니스 분석가에게 적합합니다.

Spark Notebook

Notebook은 레이크하우스 데이터와 상호 작용하는 인기 있는 방법입니다. Fabric은 데이터 작업자가 코드를 작성하는 데 사용할 수 있는 웹 기반 대화형 표면을 제공합니다. 이러한 작업자는 다양한 시각화 및 Markdown 텍스트를 적용할 수 있습니다. 데이터 엔지니어는 데이터 수집, 데이터 준비 및 데이터 변환을 위한 코드를 작성합니다. 데이터 과학자는 데이터 탐색, 기계 학습 실험 및 모델 만들기 및 모델 추적 및 배포를 위해 Notebook을 사용합니다. 이 옵션은 전문 데이터 엔지니어 및 데이터 과학자에게 적합합니다.

Power BI

패브릭의 모든 레이크하우스에는 미리 빌드된 기본 의미 체계 모델이 함께 제공됩니다. 레이크하우스를 설정하고 데이터를 로드할 때 자동으로 만들어집니다. 이러한 모델은 레이크하우스 환경 내에서 직접 Power BI 보고서 및 대시보드를 쉽게 만들 수 있도록 레이크하우스에서 비즈니스 논리를 상속합니다. 레이크하우스 테이블에서 특정 비즈니스 요구 사항에 따라 사용자 지정 의미 체계 모델을 만들 수도 있습니다. 레이크하우스에서 Power BI 보고서를 만들 때 데이터를 별도로 가져올 필요가 없는 Direct Lake 모드를 사용할 수 있습니다. 이 모드를 사용하면 레이크하우스에서 데이터를 이동하지 않고도 보고서에서 메모리 내 성능을 얻을 수 있습니다.

사용자 지정 API

패브릭은 해당 항목에 걸쳐 풍부한 API 표면을 제공합니다. OneLake는 Azure Data Lake Storage API 및 SDK를 통해 모든 패브릭 항목에 대한 개방형 액세스를 제공합니다. OneLake URI를 대신 사용하여 Data Lake Storage와 호환되는 API, SDK 또는 도구를 통해 OneLake의 데이터에 액세스할 수 있습니다. Azure Storage Explorer를 사용하여 레이크하우스에 데이터를 업로드하거나 Azure Databricks의 바로 가기를 통해 델타 테이블을 읽을 수 있습니다. 또한 OneLake는 Data Lake Storage 및 Azure Blob Storage와의 호환성을 위해 ABFS(Azure Blob Filesystem) 드라이버를 지원합니다. 다운스트림 앱에서 스트리밍 데이터를 사용하려면 이벤트 스트림 데이터를 사용자 지정 API 엔드포인트로 푸시할 수 있습니다. 그런 다음 Azure Event Hubs 또는 AMQP 또는 Kafka 프로토콜을 사용하여 패브릭에서 이 스트리밍 출력을 사용할 수 있습니다.

Power Automate

Power Automate는 반복적인 작업을 자동화하고 데이터를 조작하는 데 사용할 수 있는 로우 코드 애플리케이션 플랫폼입니다. 패브릭의 반사 항목은 Power Automate 흐름을 대상으로 지원합니다. 이 통합 을 통해 많은 사용 사례가 잠금 해제되고 Microsoft 및 비 Microsoft 시스템 모두에 대해 광범위한 커넥터를 사용하여 다운스트림 작업을 트리거할 수 있습니다.

구성 요소

이 솔루션에는 다음 구성 요소가 사용됩니다.

패브릭: 엔터프라이즈용으로 설계된 엔드 투 엔드 클라우드 기반 데이터 분석 플랫폼입니다. 데이터 수집, 변환, 분석 및 시각화와 같은 다양한 데이터 작업에 대한 통합 환경을 제공합니다.
- OneLake: 패브릭의 모든 데이터에 대한 중앙 허브입니다. 개방형 데이터 레이크로 설계되었으므로 구조에 관계없이 데이터를 네이티브 형식으로 저장할 수 있습니다.
- Data Factory: 자동화된 데이터 이동 및 변환을 위한 클라우드 기반 ETL 및 오케스트레이션 서비스입니다. 이를 통해 다양한 데이터 원본에서 대규모로 데이터 이동 및 변환을 자동화할 수 있습니다.
- 데이터 엔지니어링: 대량의 데이터를 수집, 스토리지, 처리 및 분석할 수 있도록 하는 도구입니다.
- 데이터 과학: 데이터 보강을 위한 엔드 투 엔드 데이터 과학 워크플로를 완료하고 비즈니스 인사이트를 얻을 수 있는 도구입니다.
- 실시간 인텔리전스: 스트림 수집 및 처리 기능을 제공하는 서비스입니다. 이를 통해 지속적으로 흐르는 데이터에서 인사이트를 얻을 수 있으므로 실시간 추세 및 변칙에 따라 더 빠른 의사 결정을 내릴 수 있습니다.
- 부조종사: 자연어를 사용하여 패브릭 및 Power BI에서 데이터를 분석하고, 인사이트를 생성하고, 시각화 및 보고서를 만드는 데 사용할 수 있는 도구입니다.
Power BI: 데이터를 시각화하고 인사이트를 얻기 위한 대화형 대시보드 및 보고서를 만들기 위한 비즈니스 인텔리전스 도구입니다.

대안

패브릭은 강력한 도구 집합을 제공하지만 특정 요구 사항에 따라 Azure 에코시스템의 대체 서비스에서 제공하는 향상된 기능을 활용할 수 있습니다.

Azure Databricks는 네이티브 패브릭 데이터 엔지니어링 기능을 대체하거나 보완할 수 있습니다. Azure Databricks는 클라우드 기반 Apache Spark 환경을 제공하여 대규모 데이터 처리를 위한 대안을 제공합니다. 또한 Azure Databricks는 데이터 과학, 데이터 엔지니어링, 기계 학습, AI 및 SQL 기반 분석과 같은 주요 사용 사례를 사용하도록 설정하는 전체 데이터 자산 및 기능에 공통 거버넌스를 제공합니다.
Azure Machine Learning은 네이티브 패브릭 데이터 과학 도구를 대체하거나 보완할 수 있습니다. Machine Learning은 온라인 유추 사용 사례에 대한 모델을 호스트하고, 드리프트용 모델을 모니터링하고, 사용자 지정 생성 AI 애플리케이션을 만들 수 있는 기능을 추가하여 Fabric의 모델 실험 및 관리 기능을 능가합니다.

시나리오 정보

이 아키텍처는 다음 시나리오에 적용됩니다.

레거시 시스템 제약 조건 없이 새로 시작하는 조직
0.5TB에서 1.5TB 사이의 데이터 볼륨을 예상하는 조직
비용, 복잡성 및 성능 고려 사항의 균형을 맞추는 간단하고 간소화된 패턴을 선호하는 조직입니다.
보고, 분석 및 기계 학습 요구 사항을 해결하는 간단하고 비용 효율적이며 고성능 데이터 플랫폼이 필요한 조직입니다.
통합 보기를 위해 여러 원본의 데이터를 통합하려는 조직입니다.

이 솔루션은 다음 용도로는 권장되지 않습니다.

Apache Spark에서 기술이 제한된 SQL 또는 관계형 데이터베이스 배경을 가진 팀입니다.
레거시 시스템 또는 데이터 웨어하우스에서 최신 플랫폼으로 마이그레이션하는 조직

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

안정성

안정성은 애플리케이션이 고객에 대한 약속을 충족할 수 있도록 합니다. 자세한 내용은 안정성에 대한 디자인 검토 검사 목록을 참조하세요.

패브릭은 구성 없이 가용성 영역 간에 리소스를 자동으로 복제합니다. 예를 들어 영역 전체 가동 중단 중에는 영역을 복구하는 데 아무런 작업도 필요하지 않습니다. 지원되는 지역에서 Fabric은 정상 영역을 활용하기 위해 자동으로 자체 치유 및 균형을 조정할 수 있습니다.

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안성에 대한 디자인 검토 검사 목록을 참조하세요.

패브릭을 사용하여 변화하는 요구 사항 및 요구에 따라 보안 설정을 관리, 제어 및 감사할 수 있습니다. 패브릭 사용에 대한 주요 보안 권장 사항은 다음과 같습니다.

인증. Microsoft Entra ID에서 SSO(Single Sign-On)를 구성하여 다양한 디바이스 및 위치에서 액세스할 수 있습니다.
RBAC(역할 기반 액세스 제어). 작업 영역 기반 액세스 제어를 구현하여 특정 데이터 세트에 액세스하고 상호 작용할 수 있는 사용자를 관리합니다.
네트워크 보안. 네트워크 내부 또는 외부의 데이터 또는 서비스에 연결할 때 패브릭 인바운드 및 아웃바운드 네트워크 보안 제어를 사용합니다. 주요 기능에는 조건부 액세스, 프라이빗 링크, 신뢰할 수 있는 작업 영역 액세스 및 관리형 프라이빗 엔드포인트가 포함됩니다.
감사 로그. 패브릭에서 제공하는 자세한 감사 로그를 사용하여 사용자 활동을 추적하고 플랫폼 전체에서 책임을 보장합니다.

자세한 내용은 Microsoft Fabric 내 보안을 참조하세요.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조 하세요.

Fabric은 지정된 수의 CPU(용량 단위)에 대한 용량 예약을 제공합니다. 용량 예약은 패브릭 용량 사용량에 대한 예약을 1년 동안 커밋할 때 비용을 절감하는 데 도움이 될 수 있습니다.

패브릭 용량의 사용률을 최대화하려면 다음 권장 사항을 고려하세요.

F SKU를 권한화합니다. 적절한 용량 크기를 확인하려면 평가판 용량 또는 종량제 F SKU를 프로비전하여 F SKU 예약 인스턴스를 구입하기 전에 필요한 실제 용량 크기를 측정할 수 있습니다. 대표적인 워크로드를 사용하여 범위가 지정된 개념 증명을 수행하고 CU 사용량을 모니터링한 다음 프로덕션에 대한 CU 사용량의 예상값에 도달하도록 추정하는 것이 좋습니다. 패브릭은 원활한 크기 조정을 제공합니다. 더 많은 용량이 필요한 경우 보수적인 용량 크기로 시작하고 확장할 수 있습니다.
사용 패턴을 모니터링합니다. 사용량을 정기적으로 추적하고 분석하여 사용량이 가장 많은 시간과 사용량이 낮은 시간을 식별합니다. 이렇게 하면 사용량이 많은 시간에 중요하지 않은 작업을 예약하여 CU 사용량 급증을 방지할 수 있도록 리소스가 가장 많이 활용되는 시기를 이해하는 데 도움이 될 수 있습니다.
쿼리 및 워크로드를 최적화합니다. 불필요한 컴퓨팅 사용량을 줄이기 위해 쿼리 및 워크로드가 최적화되어 있는지 확인합니다. DAX 쿼리, Python 코드 및 기타 작업을 최적화합니다.
버스트 및 스무딩을 사용합니다. 패브릭의 버스팅 및 다듬기 기능을 사용하여 더 높은 SKU 없이 CPU 집약적 작업을 처리합니다. 이렇게 하면 성능을 유지하면서 비용을 관리하는 데 도움이 될 수 있습니다. 자세한 내용은 패브릭 용량 평가 및 최적화를 참조하세요.
경고 및 알림을 설정합니다. 용량 관리자가 높은 컴퓨팅 사용량을 모니터링하고 관리할 수 있도록 사전 경고를 구성합니다. 이렇게 하면 비용 초과를 방지하기 위해 적시에 조치를 취할 수 있습니다.
워크로드 관리를 구현합니다. 리소스 가용성 및 시스템 수요에 따라 로그 실행 작업을 엇갈리게 예약하여 용량 사용량을 최적화합니다. 자세한 내용은 워크로드 관리를 참조하세요.

이러한 고려 사항도 염두에 두어야 합니다.

Data Lake Storage 가격은 저장하는 데이터의 양과 데이터 사용 빈도에 따라 달라집니다. 샘플 가격 책정에는 1TB의 저장된 데이터 및 기타 트랜잭션 가정이 포함됩니다. 1TB는 원래 레거시 데이터베이스 크기가 아닌 데이터 레이크의 크기를 나타냅니다.
패브릭 가격은 패브릭 F SKU 용량 가격 또는 사용자당 프리미엄 가격을 기반으로 합니다. 서버리스 용량은 구매한 전용 용량에서 CPU 및 메모리를 사용합니다.
Event Hubs는 계층, 프로비전된 처리량 단위 및 수신된 수신 트래픽을 기준으로 요금을 청구합니다. 이 예제에서는 한 달간 이벤트가 100만 개 이상인 표준 계층의 처리량 단위가 하나인 것으로 가정합니다.

운영 효율성

운영 우수성은 애플리케이션을 배포하고 프로덕션에서 계속 실행하는 운영 프로세스를 다룹니다. 자세한 내용은 Operational Excellence에 대한 디자인 검토 검사 목록을 참조하세요.

Fabric은 데이터 플랫폼을 관리하는 데 도움이 되는 많은 구성 요소를 제공합니다. 이러한 각 구성 요소는 Microsoft Fabric 용량 메트릭 앱에서 볼 수 있는 고유한 작업을 지원합니다. 패브릭 용량 메트릭 앱을 사용하여 용량 소비를 모니터링하고 용량 리소스를 사용하는 방법에 대한 정보에 입각한 결정을 내립니다.

성능 효율성

성능 효율성은 사용자가 배치된 요구 사항을 효율적인 방식으로 충족하기 위해 워크로드의 크기를 조정할 수 있는 기능입니다. 자세한 내용은 성능 효율성에 대한 디자인 검토 검사 목록을 참조하세요.

패브릭은 구성 요소 전체에서 성능을 최적화하는 몇 가지 기능을 제공합니다. 이러한 도구와 사례를 통해 컴퓨팅 리소스를 효과적으로 관리하고, 오버로드를 방지하고, 워크로드 크기 조정 및 최적화에 대한 정보에 입각한 결정을 내릴 수 있습니다.

Fabric의 몇 가지 주요 성능 효율성 기능은 다음과 같습니다.

버스팅 및 다듬기, 더 높은 SKU 없이 CPU 집약적 작업이 신속하게 완료되도록 합니다. 하루 중 언제든지 이러한 활동을 예약합니다.
용량이 SKU 제한을 초과하는 지속적인 CPU 수요를 경험할 때 작업을 지연하거나 거부하기 위한 제한입니다.
패브릭 용량 메트릭 앱은 용량 사용량을 시각화하고 아티팩트 성능을 최적화하며 높은 컴퓨팅 항목을 최적화합니다. 앱은 대상 최적화를 위한 대화형 작업(예: DAX 쿼리)과 백그라운드 작업(예: 의미 체계 모델 새로 고침)을 구분합니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

주요 작성자:

Amit Chandra | 클라우드 솔루션 설계자
Nicholas Moore | 클라우드 솔루션 설계자

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음을 통해 공유

Microsoft Fabric의 그린필드 레이크하우스

아키텍처

데이터 흐름

콜드 경로: Batch 분석

Data Factory를 통한 데이터 수집

데이터 변환

핫 경로: 실시간 분석

실시간 수집

실시간 분석

데이터 서비스

SQL 분석 끝점

Spark Notebook

Power BI

사용자 지정 API

Power Automate

구성 요소

대안

시나리오 정보

고려 사항

안정성

보안

비용 최적화

운영 효율성

성능 효율성

참가자

다음 단계

피드백

추가 리소스

다음을 통해 공유

Microsoft Fabric의 그린필드 레이크하우스

아키텍처

데이터 흐름

콜드 경로: Batch 분석

Data Factory를 통한 데이터 수집

데이터 변환

핫 경로: 실시간 분석

실시간 수집

실시간 분석

데이터 서비스

SQL 분석 끝점

Spark Notebook

Power BI

사용자 지정 API

Power Automate

구성 요소

대안

시나리오 정보

고려 사항

안정성

보안

비용 최적화

운영 효율성

성능 효율성

참가자

다음 단계

관련 참고 자료

피드백

추가 리소스