메달리온 아키텍처 설명
Fabric의 데이터 레이크하우스는 기본적으로 ACID(원자성, 일관성, 격리, 내구성) 트랜잭션을 지원하는 Delta Lake 형식을 기반으로 구축되었습니다. 이 프레임워크 내에서 메달리온 아키텍처는 레이크하우스의 데이터를 논리적으로 구성하는 데 사용되는 권장 데이터 디자인 패턴입니다. 다양한 레이어를 통해 이동하면서 데이터 품질을 향상시키는 것을 목표로 합니다. 아키텍처는 일반적으로 브론즈(원시), 실버(검증됨), 골드(보강)의 세 가지 레이어로 구성되며 각 레이어는 더 높은 데이터 품질 수준을 나타냅니다. 어떤 사람들은 이를 "멀티홉" 아키텍처라고도 부르는데, 이는 데이터가 필요에 따라 레이어 간에 이동할 수 있음을 의미합니다.
이 아키텍처는 다양한 검사와 변경을 거치면서 데이터의 신뢰성과 일관성을 보장합니다. 또한 더 쉽고 빠르게 분석할 수 있는 방식으로 데이터가 안전하게 저장된다는 것을 보장합니다.
메달리온 아키텍처는 다른 데이터 구성 방법을 대체하는 것이 아니라 보완합니다. 메달리온 아키텍처는 데이터 아키텍처나 모델이 아니라 데이터 정리를 위한 프레임워크로 생각할 수 있습니다. 이는 기업이 기존 데이터 모델과 함께 이점을 채택할 수 있도록 호환성과 유연성을 보장하므로 끊임없이 변화하는 데이터 환경에 적응력을 유지하면서 데이터 솔루션을 사용자 지정하고 전문 지식을 보존할 수 있습니다.
메달리온 아키텍처 형식 이해
브론즈 레이어
메달리온 건축물의 브론즈 또는 원시 레이어는 레이크하우스의 첫 번째 레이어입니다. 이는 구조화된 데이터, 반구조화된 데이터, 구조화되지 않은 데이터 등 모든 데이터의 랜딩 존입니다. 데이터는 원래 형식으로 저장되며 변경되지 않습니다.
실버 레이어
실버 또는 검증된 레이어는 레이크하우스의 두 번째 레이어입니다. 여기에서 데이터를 검증하고 구체화할 수 있습니다. 실버 레이어의 일반적인 활동에는 데이터 결합 및 병합, Null 제거 및 중복 제거와 같은 데이터 유효성 검사 규칙 시행이 포함됩니다. 실버 레이어는 데이터가 일관된 형식으로 저장되고 여러 팀에서 액세스할 수 있는 조직이나 팀 전체의 중앙 저장소로 생각할 수 있습니다. 실버 레이어에서는 모든 것이 한 곳에 있고 골드 레이어에서 구체화되고 모델링될 수 있도록 데이터를 충분히 정리합니다.
골드 레이어
골드 또는 보강 레이어는 레이크하우스의 세 번째 레이어입니다. 골드 레이어에서는 데이터가 특정 비즈니스 및 분석 요구 사항에 맞게 추가로 개선됩니다. 여기에는 데이터를 일별, 시간별 등 특정 단위로 집계하거나 외부 정보로 강화하는 작업이 포함될 수 있습니다. 데이터가 골드 단계에 도달하면 분석, 데이터 과학 또는 MLOps를 포함한 다운스트림 팀에서 사용할 수 있게 됩니다.
메달리온 아키텍처를 사용자 지정
조직의 특정 사용 사례에 따라 더 많은 레이어가 필요할 수 있습니다. 예를 들어 브론즈 레이어로 변환되기 전에 특정 형식의 데이터를 랜딩하기 위한 추가 "원시" 레이어가 있을 수 있습니다. 또는 특정 사용 사례에 맞게 더욱 정제되고 보강된 데이터용 "플래티넘" 레이어가 있을 수도 있습니다. 이름과 레이어 수에 관계없이 메달리온 아키텍처는 유연하며 조직의 특정 요구 사항에 맞게 맞춤화할 수 있습니다.
Fabric의 레이어 간에 데이터 이동
메달리온 레이어 간에 데이터를 이동하면 다운스트림 데이터 활동을 위해 데이터가 구체화, 구성 및 준비됩니다. Fabric의 레이크하우스에는 레이어 간에 데이터를 이동하는 방법이 여러 가지 있으므로 팀에 적합한 방법을 선택할 수 있습니다.
레이어 간에 데이터를 이동하고 변환하는 방법을 결정할 때 고려해야 할 몇 가지 사항이 있습니다.
- 얼마나 많은 데이터를 사용하고 있습니까?
- 수행해야 하는 변환은 얼마나 복잡합니까?
- 레이어 간에 데이터를 얼마나 자주 이동해야 합니까?
- 어떤 도구를 가장 편안하게 사용합니까?
데이터 변환과 데이터 조정의 차이점을 이해하면 Fabric 내에서 작업에 적합한 도구를 선택하는 데 도움이 됩니다.
데이터 변환에는 특정 요구 사항을 충족하기 위해 데이터의 구조나 콘텐츠를 변경하는 작업이 포함됩니다. Fabric의 데이터 변환 도구에는 Dataflows(Gen2) 및 전자 필기장이 포함됩니다. 데이터 흐름은 소규모 의미 체계 모델과 간단한 변환을 위한 훌륭한 옵션입니다. Notebooks는 더 큰 의미 체계 모델과 더 복잡한 변환에 더 나은 옵션입니다. 또한 전자 필기장을 사용하면 변환된 데이터를 레이크하우스의 관리형 델타 테이블로 저장하여 보고할 수 있습니다.
데이터 조정은 여러 데이터 관련 프로세스를 조정하고 관리하여 서로 협력하여 원하는 결과를 달성하는 것을 의미합니다. Fabric의 데이터 조정을 위한 기본 도구는 파이프라인입니다. 파이프라인은 데이터를 한 위치에서 다른 위치로 이동하는 일련의 단계입니다. 이 경우에는 메달리온 아키텍처의 한 레이어에서 다음 레이어로 이동합니다. 파이프라인은 일정에 따라 실행되거나 이벤트에 의해 트리거되도록 자동화할 수 있습니다.