Popis architektury datových skladů
Architektura rozsáhlé analýzy dat se může lišit, stejně jako konkrétní technologie používané k jeho implementaci; ale obecně jsou zahrnuty následující prvky:
- Příjem a zpracování dat – data z jednoho nebo více transakčních úložišť dat, souborů, datových proudů v reálném čase nebo jiných zdrojů se načítají do datového jezera nebo relačního datového skladu. Operace načítání obvykle zahrnuje proces extrakce, transformace a načítání (ETL) nebo extrakce, načtení a transformace (ELT), ve kterém se data vyčistí, filtrují a restrukturují pro účely analýzy. V procesech ETL se data před načtením do analytického úložiště transformují, zatímco při procesu ELT se data zkopírují do úložiště a pak se transformují. V obou směrech je výsledná datová struktura optimalizovaná pro analytické dotazy. Zpracování dat často provádí distribuované systémy, které mohou paralelně zpracovávat velké objemy dat pomocí clusterů s více uzly. Příjem dat zahrnuje dávkové zpracování statických dat i zpracování streamovaných dat v reálném čase.
- Analytické úložiště dat – úložiště dat pro rozsáhlé analýzy zahrnují relační datové sklady, datová jezera založená na souborech a hybridní architektury, které kombinují funkce datových skladů a datových jezer (někdy označované jako data lakehouses nebo databáze lake). Tyto informace probereme podrobněji později.
- Analytický datový model – zatímco datoví analytici a datoví vědci můžou pracovat s daty přímo v analytickém úložišti dat, je běžné vytvořit jeden nebo více datových modelů, které data předem agregují, aby bylo snazší vytvářet sestavy, řídicí panely a interaktivní vizualizace. Tyto datové modely jsou často popsány jako datové krychle, ve kterých jsou číselné datové hodnoty agregovány v jedné nebo více dimenzích (například k určení celkového prodeje podle produktu a oblasti). Model zapouzdřuje vztahy mezi hodnotami dat a dimenzionálními entitami, aby podporoval analýzu "přechodu k podrobnostem nebo přechodu k podrobnostem".
- Vizualizace dat – datoví analytici využívají data z analytických modelů a přímo z analytických úložišť k vytváření sestav, řídicích panelů a dalších vizualizací. Uživatelé v organizaci, kteří nemusí být technologickými profesionály, mohou také provádět samoobslužnou analýzu dat a vytváření sestav. Vizualizace z dat zobrazují trendy, porovnání a klíčové ukazatele výkonu (KPI) pro firmu nebo jinou organizaci a můžou mít podobu tištěných sestav, grafů a grafů v dokumentech nebo powerpointových prezentacích, webových řídicích panelech a interaktivních prostředích, ve kterých můžou uživatelé vizuálně zkoumat data.