Udostępnij za pośrednictwem


Najlepsze rozwiązania dotyczące tworzenia modelu wymiarowego przy użyciu przepływów danych

Projektowanie modelu wymiarowego jest jednym z najczęstszych zadań, które można wykonać za pomocą przepływu danych. W tym artykule przedstawiono niektóre z najlepszych rozwiązań dotyczących tworzenia modelu wymiarowego przy użyciu przepływu danych.

Przejściowe przepływy danych

Jednym z kluczowych punktów w dowolnym systemie integracji danych jest zmniejszenie liczby odczytów ze źródłowego systemu operacyjnego. W tradycyjnej architekturze integracji danych ta redukcja jest wykonywana przez utworzenie nowej bazy danych o nazwie przejściowej bazy danych. Celem przejściowej bazy danych jest załadowanie danych zgodnie ze źródłem danych do przejściowej bazy danych zgodnie z harmonogramem.

Pozostała część integracji danych będzie następnie używać przejściowej bazy danych jako źródła do dalszej transformacji i przekonwertować ją na strukturę modelu wymiarowego.

Zalecamy stosowanie tego samego podejścia przy użyciu przepływów danych. Utwórz zestaw przepływów danych, które są odpowiedzialne za samo ładowanie danych zgodnie z oczekiwaniami z systemu źródłowego (i tylko dla potrzebnych tabel). Wynik jest następnie przechowywany w strukturze magazynu przepływu danych (Azure Data Lake Storage lub Dataverse). Ta zmiana gwarantuje, że operacja odczytu z systemu źródłowego jest minimalna.

Następnie możesz utworzyć inne przepływy danych, które pobierają dane z przejściowych przepływów danych. Zalety tego podejścia obejmują:

  • Zmniejszenie liczby operacji odczytu z systemu źródłowego i zmniejszenie obciążenia systemu źródłowego w rezultacie.
  • Zmniejszenie obciążenia bram danych, jeśli jest używane lokalne źródło danych.
  • Posiadanie pośredniej kopii danych na potrzeby uzgodnień w przypadku zmiany danych systemu źródłowego.
  • Tworzenie niezależnych od źródła przepływów danych przekształcania.

Przejściowe przepływy danych.

Obraz przedstawiający przejściowe przepływy danych i magazyn przejściowy oraz pokazujący dostęp do danych ze źródła danych przez przejściowy przepływ danych oraz tabele przechowywane w programach Cadavers lub Azure Data Lake Storage. Następnie tabele są wyświetlane podczas przekształcania wraz z innymi przepływami danych, które następnie są wysyłane jako zapytania.

Przekształcanie przepływów danych

Po oddzieleniu przepływów danych przekształcania od przejściowych przepływów danych przekształcenie będzie niezależne od źródła. Ta separacja pomaga w przypadku migrowania systemu źródłowego do nowego systemu. W takim przypadku wystarczy zmienić przejściowe przepływy danych. Przepływy danych przekształcania mogą działać bez żadnego problemu, ponieważ pochodzą tylko z przejściowych przepływów danych.

Ta separacja pomaga również w przypadku, gdy połączenie z systemem źródłowym działa wolno. Przepływ danych przekształcania nie będzie musiał czekać przez długi czas, aby uzyskać rekordy przechodzące przez powolne połączenie z systemu źródłowego. Przejściowy przepływ danych został już wykonany w tej części, a dane będą gotowe do warstwy transformacji.

Obraz podobny do poprzedniego obrazu, z wyjątkiem przekształceń są podkreślone, a dane są wysyłane do magazynu danych.

Architektura warstwowa

Architektura warstwowa to architektura, w której wykonujesz akcje w oddzielnych warstwach. Przepływy danych przemieszczania i przekształcania mogą być dwiema warstwami architektury wielowarstwowego przepływu danych. Próba wykonania akcji w warstwach gwarantuje minimalną wymaganą konserwację. Jeśli chcesz coś zmienić, wystarczy zmienić ją w warstwie, w której się znajduje. Pozostałe warstwy powinny nadal działać prawidłowo.

Na poniższej ilustracji przedstawiono wielowarstwową architekturę dla przepływów danych, w których ich tabele są następnie używane w modelach semantycznych usługi Power BI.

Obraz z wielowarstwową architekturą, w której przejściowe przepływy danych i przepływy danych przekształcania znajdują się w oddzielnych warstwach.

Jak najwięcej użyj obliczonej tabeli

Gdy używasz wyniku przepływu danych w innym przepływie danych, używasz koncepcji obliczonej tabeli, co oznacza pobieranie danych z tabeli "już przetworzonej i przechowywanej". To samo może się zdarzyć wewnątrz przepływu danych. Jeśli odwołujesz się do tabeli z innej tabeli, możesz użyć obliczonej tabeli. Jest to przydatne, gdy masz zestaw przekształceń, które należy wykonać w wielu tabelach, które są nazywane typowymi przekształceniami.

Obraz przedstawiający obliczoną tabelę źródłową ze źródła danych używanego do przetwarzania typowych przekształceń.

Na poprzedniej ilustracji obliczona tabela pobiera dane bezpośrednio ze źródła. Jednak w architekturze przejściowych i przekształcania przepływów danych prawdopodobnie obliczone tabele pochodzą z przejściowych przepływów danych.

Obliczona tabela pochodzi z przepływów danych używanych do przetwarzania typowych przekształceń.

Tworzenie schematu gwiazdy

Najlepszy model wymiarowy to model schematu gwiazdy, który ma wymiary i tabele faktów zaprojektowane w celu zminimalizowania ilości czasu wykonywania zapytań o dane z modelu, a także ułatwia zrozumienie wizualizatora danych.

Nie jest idealnym rozwiązaniem do uwzględnienia danych w tym samym układzie systemu operacyjnego w systemie analizy biznesowej. Tabele danych powinny zostać przemodelowane. Niektóre tabele powinny mieć postać tabeli wymiarów, która przechowuje informacje opisowe. Niektóre tabele powinny mieć postać tabeli faktów, aby zachować dane aggregatable. Najlepszym układem tabel faktów i tabel wymiarów do utworzenia jest schemat gwiazdy. Więcej informacji: Omówienie schematu gwiazdy i znaczenia usługi Power BI

Obraz schematu gwiazdy przedstawiający tabelę faktów otoczoną tabelami wymiarów w kształcie pięcioramiennej gwiazdki.

Używanie unikatowej wartości klucza dla wymiarów

Podczas tworzenia tabel wymiarów upewnij się, że masz klucz dla każdego z nich. Ten klucz gwarantuje, że między wymiarami nie ma relacji wiele-do-wielu (lub innymi słowy"słabych"). Klucz można utworzyć, stosując pewne przekształcenia, aby upewnić się, że kolumna lub kombinacja kolumn zwraca unikatowe wiersze w wymiarze. Następnie kombinacja kolumn może być oznaczona jako klucz w tabeli w przepływie danych.

Oznacz kolumnę jako wartość klucza.

Wykonywanie odświeżania przyrostowego dla dużych tabel faktów

Tabele faktów są zawsze największymi tabelami w modelu wymiarowym. Zalecamy zmniejszenie liczby wierszy przesyłanych dla tych tabel. Jeśli masz bardzo dużą tabelę faktów, upewnij się, że używasz odświeżania przyrostowego dla tej tabeli. Odświeżanie przyrostowe można wykonać w modelu semantycznym usługi Power BI, a także w tabelach przepływu danych.

Odświeżanie przyrostowe służy do odświeżania tylko części danych, części, która uległa zmianie. Istnieje wiele opcji wyboru, która część danych ma być odświeżona i która część ma być utrwalone. Więcej informacji: Używanie odświeżania przyrostowego z przepływami danych usługi Power BI

Odświeżanie przyrostowe dla przepływów danych.

Odwoływanie się do tworzenia wymiarów i tabel faktów

W systemie źródłowym często jest używana tabela służąca do generowania tabel faktów i wymiarów w magazynie danych. Te tabele są dobrymi kandydatami do tabel obliczeniowych, a także pośrednich przepływów danych. Wspólna część procesu — taka jak czyszczenie danych i usuwanie dodatkowych wierszy i kolumn — można wykonać raz. Używając odwołania z danych wyjściowych tych akcji, można utworzyć tabele wymiarów i faktów. To podejście będzie używać obliczonej tabeli dla typowych przekształceń.

Obraz przedstawiający zapytanie Orders (Zamówienia) z opcją odwołania używaną do utworzenia nowego zapytania o nazwie Orders aggregated (Zamówienia zagregowane).