Vysvětlení fází zpracování velkých objemů dat

Dokončeno

Datová jezera mají zásadní roli v široké škále architektur pro velké objemy dat. Součástí těchto architektur může být vytvoření:

  • Podnikový datový sklad.
  • pokročilých analýz velkých objemů dat,
  • analytického řešení pracujícího v reálném čase.

V řešeních zpracování velkých objemů dat existují čtyři fáze, které jsou společné pro všechny architektury:

  • Ingestace – fáze příjmu dat identifikuje technologii a procesy, které se používají k získání zdrojových dat. Tato data můžou pocházet ze souborů, protokolů a dalších typů nestrukturovaných dat, která musí být vložena do datového jezera. Použitá technologie se bude lišit podle frekvence přenosu dat. Například pro dávkové přesuny dat můžou být kanály ve službě Azure Synapse Analytics nebo Azure Data Factory nejvhodnější technologií, která se má použít. Pro příjem dat v reálném čase může být vhodnou volbou Apache Kafka pro HDInsight nebo Stream Analytics.
  • Ukládání – fáze ukládání určuje, kam se budou přijatá data ukládat. Azure Data Lake Storage Gen2 poskytuje zabezpečené a škálovatelné řešení úložiště, které je kompatibilní s běžně používanými technologiemi zpracování velkých objemů dat.
  • Příprava a trénování – Fáze přípravy a trénování identifikuje technologie, které slouží k přípravě dat a trénování a vyhodnocování modelů pro řešení strojového učení. Mezi běžné technologie používané v této fázi patří Azure Synapse Analytics, Azure Databricks, Azure HDInsight a Azure Machine Learning.
  • Modelování a poskytování – poslední fáze modelování a poskytování zahrnuje technologie používané k prezentaci dat uživatelům. Tyto technologie můžou zahrnovat vizualizační nástroje, jako je Microsoft Power BI, nebo analytické úložiště dat, jako je Azure Synapse Analytics. Kombinace více technologií se často použije v závislosti na obchodních požadavcích.