Opisywanie architektury medalionu
Magazyny data lakehouse w usłudze Fabric są oparte na formacie usługi Delta Lake, który natywnie obsługuje transakcje ACID (niepodzielność, spójność, izolacja, trwałość). W ramach tej struktury architektura medalionu jest zalecanym wzorcem projektowania danych używanym do logicznego organizowania danych w usłudze Lakehouse. Ma ona na celu poprawę jakości danych w miarę przechodzenia przez różne warstwy. Architektura ma zwykle trzy warstwy — brązowy (nieprzetworzony), srebrny (zweryfikowany) i złoty (wzbogacony), z których każda reprezentuje wyższe poziomy jakości danych. Niektóre osoby nazywają ją również architekturą "wieloskoku", co oznacza, że dane mogą przechodzić między warstwami zgodnie z potrzebami.
Ta architektura zapewnia niezawodność i spójność danych podczas przeprowadzania różnych kontroli i zmian. Gwarantuje również, że dane są bezpiecznie przechowywane w sposób, który ułatwia i szybsze analizowanie.
Architektura medalionu uzupełnia inne metody organizacji danych, a nie ich zastępowanie. Architekturę medalionu można traktować jako strukturę czyszczenia danych, a nie architekturę danych lub model. Zapewnia ona zgodność i elastyczność dla firm, aby wdrażały swoje korzyści wraz z istniejącymi modelami danych, dzięki czemu można dostosowywać rozwiązania danych i zachować wiedzę, zachowując jednocześnie możliwość dostosowywania się w stale zmieniającym się środowisku danych.
Omówienie formatu architektury medalonu
Warstwa z brązu
Brązowa lub surowa warstwa architektury medalonu jest pierwszą warstwą jeziora. Jest to strefa docelowa dla wszystkich danych, niezależnie od tego, czy jest ustrukturyzowana, częściowo ustrukturyzowana, czy nieustrukturyzowana. Dane są przechowywane w oryginalnym formacie i nie są w niej wprowadzane żadne zmiany.
Warstwa srebrna
Warstwa srebra lub zweryfikowana jest drugą warstwą jeziora. W tym miejscu będziesz weryfikować i uściślić dane. Typowe działania w warstwie srebrnej obejmują łączenie i scalanie danych oraz wymuszanie reguł walidacji danych, takich jak usuwanie wartości null i deduplikacja. Warstwa srebrna może być uważana za centralne repozytorium w organizacji lub zespole, gdzie dane są przechowywane w spójnym formacie i mogą być dostępne przez wiele zespołów. W warstwie srebrnej czyścisz wystarczająco dużo danych, aby wszystko było w jednym miejscu i gotowe do wyrafinowania i modelowania w warstwie złota.
Warstwa złota
Złota lub wzbogacona warstwa jest trzecią warstwą jeziora. W warstwie złota dane są poddawane dalszemu uściśleniu, aby dostosować je do konkretnych potrzeb biznesowych i analitycznych. Może to obejmować agregowanie danych do określonego stopnia szczegółowości, takiego jak codziennie lub co godzinę, lub wzbogacanie ich informacjami zewnętrznymi. Gdy dane osiągną złoty etap, staną się gotowe do użycia przez zespoły podrzędne, w tym analizy, nauki o danych lub metodyki MLOps.
Dostosowywanie architektury medalonu
W zależności od konkretnego przypadku użycia organizacji może być konieczne posiadanie większej liczby warstw. Na przykład może istnieć dodatkowa warstwa "nieprzetworzona" dla danych docelowych w określonym formacie, zanim zostanie przekształcona w warstwę z brązu. Możesz też mieć "platynową" warstwę danych, która została dokładniej udoskonalona i wzbogacona w konkretny przypadek użycia. Niezależnie od nazw i liczby warstw architektura medalionu jest elastyczna i może być dopasowana do konkretnych wymagań organizacji.
Przenoszenie danych między warstwami w sieci szkieletowej
Przenoszenie danych między warstwami medalionu uściśli, organizuje i przygotowuje je do działań podrzędnych danych. W usłudze Lakehouse sieci Szkieletowej istnieje więcej niż jeden sposób przenoszenia danych między warstwami, dzięki czemu możesz wybrać metodę, która działa dla twojego zespołu.
Istnieje kilka kwestii, które należy wziąć pod uwagę podczas podejmowania decyzji o tym, jak przenosić i przekształcać dane między warstwami.
- Ile danych pracujesz?
- Jak złożone są przekształcenia, które należy wykonać?
- Jak często trzeba będzie przenosić dane między warstwami?
- Jakie narzędzia są najbardziej wygodne?
Zrozumienie różnicy między przekształcaniem danych a orkiestracją danych ułatwia wybranie odpowiednich narzędzi dla zadania w ramach sieci Szkieletowej.
Przekształcanie danych obejmuje zmianę struktury lub zawartości danych w celu spełnienia określonych wymagań. Narzędzia do przekształcania danych w sieci szkieletowej obejmują przepływy danych (Gen2) i notesy. Przepływy danych to świetna opcja dla mniejszych modeli semantycznych i prostych przekształceń. Notesy są lepszym rozwiązaniem dla większych modeli semantycznych i bardziej złożonych przekształceń. Notesy umożliwiają również zapisywanie przekształconych danych jako zarządzanej tabeli delty w usłudze Lakehouse gotowej do raportowania.
Aranżacja danych odnosi się do koordynacji i zarządzania wieloma procesami związanymi z danymi, zapewniając, że współpracują ze sobą w celu osiągnięcia pożądanego wyniku. Podstawowym narzędziem do orkiestracji danych w sieci szkieletowej są potoki. Potok to seria kroków, które przenoszą dane z jednego miejsca do drugiego, w tym przypadku z jednej warstwy architektury medalonu do następnej. Potoki można zautomatyzować do uruchamiania zgodnie z harmonogramem lub wyzwalane przez zdarzenie.