Omówienie podstaw magazynu danych
Proces tworzenia nowoczesnego magazynu danych zwykle składa się z następujących elementów:
- Pozyskiwanie danych — przenoszenie danych z systemów źródłowych do magazynu danych.
- Magazyn danych — przechowywanie danych w formacie zoptymalizowanym pod kątem analizy.
- Przetwarzanie danych — przekształcanie danych w format gotowy do użycia przez narzędzia analityczne.
- Analiza i dostarczanie danych — analizowanie danych w celu uzyskania szczegółowych informacji i dostarczania tych szczegółowych informacji do firmy.
Usługa Microsoft Fabric umożliwia inżynierom danych i analitykom pozyskiwanie, przechowywanie, przekształcanie i wizualizowanie danych w jednym narzędziu z niskim kodem i tradycyjnym środowiskiem.
Omówienie środowiska magazynu danych usługi Fabric
Magazyn danych sieci szkieletowej to relacyjny magazyn danych, który obsługuje pełne transakcyjne możliwości języka T-SQL, których można oczekiwać od magazynu danych przedsiębiorstwa. Jest to w pełni zarządzany, skalowalny i wysoce dostępny magazyn danych, który może służyć do przechowywania i wykonywania zapytań o dane w usłudze Lakehouse. Korzystając z magazynu danych, masz pełną kontrolę nad tworzeniem tabel, ładowaniem, przekształcaniem i wykonywaniem zapytań dotyczących danych przy użyciu portalu sieci szkieletowej lub poleceń języka T-SQL. Za pomocą języka SQL można wykonywać zapytania i analizować dane lub używać platformy Spark do przetwarzania danych i tworzenia modeli uczenia maszynowego.
Magazyny danych w sieci Szkieletowej ułatwiają współpracę między inżynierami danych i analitykami danych, współpracując ze sobą w tym samym środowisku. Inżynierowie danych tworzą warstwę relacyjną na podstawie danych w usłudze Lakehouse, gdzie analitycy mogą eksplorować dane przy użyciu języka T-SQL i usługi Power BI.
Projektowanie magazynu danych
Podobnie jak w przypadku wszystkich relacyjnych baz danych magazyn danych usługi Fabric zawiera tabele do przechowywania danych na potrzeby analizy później. Najczęściej te tabele są zorganizowane w schemacie zoptymalizowanym pod kątem modelowania wielowymiarowego. W tym podejściu dane liczbowe związane ze zdarzeniami (np. zamówienia sprzedaży) są pogrupowane według różnych atrybutów (np. daty, klienta, sklepu). Na przykład możesz przeanalizować łączną kwotę zapłaconą za zamówienia sprzedaży, które wystąpiły w określonym dniu lub w określonym sklepie.
Tabele w magazynie danych
Tabele w magazynie danych są zwykle zorganizowane w sposób, który obsługuje wydajną i efektywną analizę dużych ilości danych. Ta organizacja jest często nazywana modelowaniem wymiarowym, która obejmuje tworzenie struktur tabel w tabele faktów i tabele wymiarów.
Tabele faktów zawierają dane liczbowe, które chcesz analizować. Tabele faktów zwykle mają dużą liczbę wierszy i są podstawowym źródłem danych do analizy. Na przykład tabela faktów może zawierać łączną kwotę zapłaconą za zamówienia sprzedaży, które wystąpiły w określonej dacie lub w określonym sklepie.
Tabele wymiarów zawierają opisowe informacje o danych w tabelach faktów. Tabele wymiarów zwykle mają niewielką liczbę wierszy i są używane do zapewnienia kontekstu dla danych w tabelach faktów. Na przykład tabela wymiarów może zawierać informacje o klientach, którzy składali zamówienia sprzedaży.
Oprócz kolumn atrybutów tabela wymiarów zawiera unikatową kolumnę klucza, która unikatowo identyfikuje każdy wiersz w tabeli. W rzeczywistości często tabela wymiarów zawiera dwie kluczowe kolumny:
- Klucz zastępczy jest unikatowym identyfikatorem dla każdego wiersza w tabeli wymiarów. Często jest to wartość całkowita, która jest generowana automatycznie przez system zarządzania bazami danych po wstawieniu nowego wiersza do tabeli.
- Alternatywny klucz jest często kluczem naturalnym lub biznesowym, który identyfikuje określone wystąpienie jednostki w transakcyjnym systemie źródłowym — na przykład kod produktu lub identyfikator klienta.
Potrzebujesz zarówno kluczy zastępczych, jak i alternatywnych w magazynie danych, ponieważ służą one różnym celom. Klucze zastępcze są specyficzne dla magazynu danych i pomagają zachować spójność i dokładność danych. Z drugiej strony klucze alternatywne są specyficzne dla systemu źródłowego i pomagają zachować możliwość śledzenia między magazynem danych a systemem źródłowym.
Specjalne typy tabel wymiarów
Specjalne typy wymiarów zapewniają dodatkowy kontekst i umożliwiają bardziej kompleksową analizę danych.
Wymiary czasu zawierają informacje o okresie, w którym wystąpiło zdarzenie. Ta tabela umożliwia analitykom danych agregowanie danych w odstępach czasu. Na przykład wymiar czasu może zawierać kolumny dla roku, kwartału, miesiąca i dnia, w którym zostało złożone zamówienie sprzedaży.
Powoli zmieniające się wymiary to tabele wymiarów , które śledzą zmiany atrybutów wymiarów w czasie, takie jak zmiany adresu klienta lub ceny produktu. Są one istotne w magazynie danych, ponieważ umożliwiają użytkownikom analizowanie i interpretowanie zmian danych w czasie. Powolne zmienianie wymiarów zapewnia aktualność i dokładność danych, co jest konieczne do podejmowania dobrych decyzji biznesowych.
Projekty schematów magazynu danych
W większości transakcyjnych baz danych używanych w aplikacjach biznesowych dane są znormalizowane w celu zmniejszenia duplikacji. Jednak w magazynie danych dane wymiarów są zwykle deznormalizowane , aby zmniejszyć liczbę sprzężeń wymaganych do wykonywania zapytań dotyczących danych.
Często magazyn danych jest zorganizowany jako schemat gwiazdy, w którym tabela faktów jest bezpośrednio powiązana z tabelami wymiarów, jak pokazano w tym przykładzie:
Atrybuty elementu można użyć do grupowania liczb w tabeli faktów na różnych poziomach. Na przykład możesz znaleźć całkowity przychód ze sprzedaży dla całego regionu lub tylko dla jednego klienta. Informacje dotyczące poszczególnych poziomów można przechowywać w tej samej tabeli wymiarów.
Napiwek
Aby uzyskać więcej informacji na temat projektowania schematów gwiazd dla sieci szkieletowej, zobacz Co to jest schemat gwiazdy?
Jeśli istnieje wiele poziomów lub niektóre informacje są udostępniane przez różne elementy, warto zamiast tego użyć schematu płatka śniegu. Oto przykład:
W tym przypadku tabela DimProduct została podzielona (znormalizowana) w celu utworzenia oddzielnych tabel wymiarów dla kategorii produktów i dostawców.
- Każdy wiersz w tabeli DimProduct zawiera wartości klucza dla odpowiednich wierszy w tabelach DimCategory i DimSupplier.
Dodano tabelę DimGeography zawierającą informacje o tym, gdzie znajdują się klienci i sklepy.
- Każdy wiersz w tabelach DimCustomer i DimStore zawiera wartość klucza dla odpowiedniego wiersza w tabeli DimGeography .