Opis architektury magazynowania danych

Ukończone

Architektura analizy danych na dużą skalę może się różnić, podobnie jak konkretne technologie używane do jej implementowania; ale ogólnie są uwzględniane następujące elementy:

Diagram przedstawiający pozyskiwanie i przetwarzanie danych, magazyn danych analitycznych, model danych analitycznych i wizualizację danych.

  1. Pozyskiwanie i przetwarzanie danych — dane z co najmniej jednego transakcyjnego magazynu danych, plików, strumieni czasu rzeczywistego lub innych źródeł są ładowane do magazynu danych typu data lake lub relacyjnych. Operacja ładowania zwykle obejmuje proces wyodrębniania, przekształcania i ładowania (ETL) lub wyodrębniania, ładowania i przekształcania (ELT), w którym dane są czyszczone, filtrowane i zmieniane na potrzeby analizy. W procesach ETL dane są przekształcane przed załadowaniem do magazynu analitycznego, podczas gdy w procesie ELT dane są kopiowane do magazynu, a następnie przekształcane. Tak czy inaczej, wynikowa struktura danych jest zoptymalizowana pod kątem zapytań analitycznych. Przetwarzanie danych jest często wykonywane przez systemy rozproszone, które mogą przetwarzać duże ilości danych równolegle przy użyciu klastrów z wieloma węzłami. Pozyskiwanie danych obejmuje zarówno przetwarzanie wsadowe danych statycznych, jak i przetwarzanie danych przesyłanych strumieniowo w czasie rzeczywistym.
  2. Magazyn danych analitycznych — magazyny danych na potrzeby analizy na dużą skalę obejmują magazyny danych relacyjnych, magazyny danych oparte na systemie plików i architektury hybrydowe, które łączą funkcje magazynów danych i magazynów danych (czasami nazywane magazynami typu data lakehouse lub bazami danych typu lake). Omówimy je bardziej szczegółowo później.
  3. Model danych analitycznych — podczas gdy analitycy danych i analitycy danych mogą pracować z danymi bezpośrednio w magazynie danych analitycznych, często tworzy się co najmniej jeden model danych, który wstępnie agreguje dane, aby ułatwić tworzenie raportów, pulpitów nawigacyjnych i interaktywnych wizualizacji. Często te modele danych są opisywane jako moduły, w których wartości danych liczbowych są agregowane w co najmniej jednym wymiarze (na przykład w celu określenia całkowitej sprzedaży według produktu i regionu). Model hermetyzuje relacje między wartościami danych i jednostkami wymiarowymi w celu obsługi analizy "uogólnień/przechodzenia do szczegółów".
  4. Wizualizacja danych — analitycy danych używają danych z modeli analitycznych i bezpośrednio z magazynów analitycznych w celu tworzenia raportów, pulpitów nawigacyjnych i innych wizualizacji. Ponadto użytkownicy w organizacji, którzy mogą nie być specjalistami ds. technologii, mogą wykonywać samoobsługowe analizy i raportowanie danych. Wizualizacje z danych pokazują trendy, porównania i kluczowe wskaźniki wydajności (KPI) dla firmy lub innej organizacji oraz mogą przyjmować formę drukowanych raportów, wykresów i wykresów w dokumentach lub prezentacjach programu PowerPoint, pulpitach nawigacyjnych opartych na sieci Web i środowiskach interaktywnych, w których użytkownicy mogą eksplorować dane wizualnie.