Prozkoumání běžných prvků architektury zpracování datových proudů

Dokončeno

Existuje mnoho technologií, které můžete použít k implementaci řešení zpracování datových proudů, ale i když se konkrétní podrobnosti implementace mohou lišit, existují běžné prvky pro většinu architektur streamování.

Obecná architektura pro zpracování datových proudů

Na nejjednodušší úrovni vypadá architektura pro zpracování datových proudů takto:

Diagram události generující data, která jsou zachycena ve frontě před zpracováním, a výsledky se zapisují do úložiště dat nebo vizualizace.

  1. Událost vygeneruje nějaká data. Může to být signál, který vygeneruje senzor, publikuje se zpráva sociálních médií, zapisuje se soubor protokolu nebo jakýkoli jiný výskyt, který vede k nějakým digitálním datům.
  2. Vygenerovaná data se zachytává ve zdroji streamování ke zpracování. V jednoduchých případech může být zdrojem složka v cloudovém úložišti dat nebo tabulka v databázi. V robustnějších řešeních streamování může být zdrojem "fronta", která zapouzdřuje logiku, aby se zajistila zpracování dat událostí v pořadí a zpracování každé události pouze jednou.
  3. Data události se zpracovávají, často časově neomezeným dotazem, který pracuje s daty událostí a vybírá data pro konkrétní typy událostí, hodnot dat projektu nebo agreguje hodnoty dat v časových (časových) obdobích (nebo oknech) – například počítáním počtu emisí ze senzorů za minutu.
  4. Výsledky operace zpracování datových proudů se zapisují do výstupu (nebo jímky), což může být soubor, tabulka databáze, řídicí panel vizuálu v reálném čase nebo jiná fronta pro další zpracování následným podřízeným dotazem.

Analytické služby v reálném čase

Microsoft podporuje více technologií, které můžete použít k implementaci analýzy streamovaných dat v reálném čase, včetně následujících:

  • Azure Stream Analytics: Řešení paaS (platforma jako služba), které můžete použít k definování úloh streamování, které ingestují data ze zdroje streamování, použití časově neomezeného dotazu a zápisu výsledků do výstupu.
  • Strukturované streamování Sparku: Opensourcová knihovna, která umožňuje vyvíjet složitá řešení streamování na službách založených na Apache Sparku, včetně Microsoft Fabric a Azure Databricks.
  • Microsoft Fabric: Vysoce výkonná databáze a analytická platforma, která zahrnuje Datoví technici, službu Data Factory, Datová Věda, analýzu v reálném čase, datový sklad a databáze.

Zdroje pro zpracování datových proudů

K ingestování dat pro zpracování datových proudů v Azure se běžně používají následující služby:

  • Azure Event Hubs: Služba pro příjem dat, kterou můžete použít ke správě front dat událostí, abyste zajistili, že se každá událost zpracuje v pořadí, přesně jednou.
  • Azure IoT Hub: Služba pro příjem dat podobná službě Azure Event Hubs, ale optimalizovaná pro správu dat událostí ze zařízení IoT (Internet of-things ).
  • Azure Data Lake Store Gen2: Vysoce škálovatelná služba úložiště se často používá ve scénářích dávkového zpracování , ale dá se použít také jako zdroj streamovaných dat.
  • Apache Kafka: Opensourcové řešení pro příjem dat, které se běžně používá společně s Apache Sparkem.

Jímky pro zpracování datových proudů

Výstup zpracování datových proudů se často odesílá do následujících služeb:

  • Azure Event Hubs: Slouží k zařazování zpracovaných dat do fronty pro další zpracování v podřízené části.
  • Azure Data Lake Store Gen 2, Microsoft OneLake nebo Azure Blob Storage: Slouží k zachování zpracovaných výsledků jako souboru.
  • Azure SQL Database, Azure Databricks nebo Microsoft Fabric: Slouží k zachování zpracovaných výsledků v tabulce pro dotazování a analýzu.
  • Microsoft Power BI: Slouží ke generování vizualizací dat v reálném čase v sestavách a řídicích panelech.