Prozkoumání zpracování analytických dat

Dokončeno

Zpracování analytických dat obvykle používá systémy jen pro čtení (nebo většinou pro čtení), které ukládají obrovské objemy historických dat nebo obchodních metrik. Analýzy mohou být založené na snímku dat v daném bodu v čase nebo na řadě snímků.

Konkrétní podrobnosti systému analytického zpracování se mohou lišit mezi řešeními, ale běžná architektura analýz na podnikové úrovni vypadá takto:

Diagram znázorňující architekturu analytické databáze s očíslovanými prvky popsanými níže

  1. Provozní data se extrahují, transformují a načítají (ETL) do datového jezera pro účely analýzy.
  2. Data se načtou do schématu tabulek – obvykle v datovém jezeře založeném na Sparku s tabulkovými abstrakcemi nad soubory v datovém jezeře nebo datový sklad s plně relačním modulem SQL.
  3. Data v datovém skladu se můžou agregovat a načíst do modelu OLAP (Online Analytical Processing) nebo datové krychle. Agregované číselné hodnoty (míry) z tabulek faktů se počítají pro průsečíky dimenzí z tabulek dimenzí. Například tržby z prodeje můžou být celkové podle data, zákazníka a produktu.
  4. Data v datovém jezeře, datovém skladu a analytickém modelu se dají dotazovat na vytváření sestav, vizualizací a řídicích panelů.

Datová jezera jsou běžná ve scénářích rozsáhlého zpracování dat, kdy se musí shromažďovat a analyzovat velké objemy dat založených na souborech.

Datové sklady představují zavedený způsob ukládání dat do relačního schématu, které je optimalizované pro operace čtení – primárně dotazy na podporu vytváření sestav a vizualizace dat. Data Lakehouses jsou novější inovace, které kombinují flexibilní a škálovatelné úložiště datového jezera s relačním dotazováním sémantiky datového skladu. Schéma tabulky může vyžadovat určité denormalizace dat ve zdroji dat OLTP (zavedení některých duplicit, aby se dotazy prováděly rychleji).

Model OLAP je agregovaný typ úložiště dat, který je optimalizovaný pro analytické úlohy. Agregace dat jsou napříč dimenzemi na různých úrovních, takže můžete přejít k podrobnostem nahoru nebo dolů a zobrazit agregace na více hierarchických úrovních, například zjistit celkový prodej podle oblastí, podle města nebo pro jednotlivé adresy. Vzhledem k tomu, že data OLAP jsou předem agregovaná, dají se rychle spustit dotazy, které vrátí souhrny, které obsahují.

Různé typy uživatelů můžou provádět analytickou práci s daty v různých fázích celkové architektury. Příklad:

  • Datoví vědci můžou pracovat přímo s datovými soubory v datovém jezeře a zkoumat a modelovat data.
  • Datoví analytici můžou dotazovat tabulky přímo v datovém skladu, aby vznikly složité sestavy a vizualizace.
  • Podnikoví uživatelé můžou využívat předem agregovaná data v analytickém modelu ve formě sestav nebo řídicích panelů.