Prozkoumání běžných prvků architektury zpracování datových proudů
Existuje mnoho technologií, které můžete použít k implementaci řešení zpracování datových proudů, ale i když se konkrétní podrobnosti implementace mohou lišit, existují běžné prvky pro většinu architektur streamování.
Obecná architektura pro zpracování datových proudů
Na nejjednodušší úrovni vypadá architektura pro zpracování datových proudů takto:
- Událost vygeneruje nějaká data. Může to být signál, který vygeneruje senzor, publikuje se zpráva sociálních médií, zapisuje se soubor protokolu nebo jakýkoli jiný výskyt, který vede k nějakým digitálním datům.
- Vygenerovaná data se zachytává ve zdroji streamování ke zpracování. V jednoduchých případech může být zdrojem složka v cloudovém úložišti dat nebo tabulka v databázi. V robustnějších řešeních streamování může být zdrojem "fronta", která zapouzdřuje logiku, aby se zajistila zpracování dat událostí v pořadí a zpracování každé události pouze jednou.
- Data události se zpracovávají, často časově neomezeným dotazem, který pracuje s daty událostí a vybírá data pro konkrétní typy událostí, hodnot dat projektu nebo agreguje hodnoty dat v časových (časových) obdobích (nebo oknech) – například počítáním počtu emisí ze senzorů za minutu.
- Výsledky operace zpracování datových proudů se zapisují do výstupu (nebo jímky), což může být soubor, tabulka databáze, řídicí panel vizuálu v reálném čase nebo jiná fronta pro další zpracování následným podřízeným dotazem.
Analytické služby v reálném čase
Microsoft podporuje více technologií, které můžete použít k implementaci analýzy streamovaných dat v reálném čase, včetně následujících:
- Azure Stream Analytics: Řešení paaS (platforma jako služba), které můžete použít k definování úloh streamování, které ingestují data ze zdroje streamování, použití časově neomezeného dotazu a zápisu výsledků do výstupu.
- Strukturované streamování Sparku: Opensourcová knihovna, která umožňuje vyvíjet složitá řešení streamování na službách založených na Apache Sparku, včetně Microsoft Fabric a Azure Databricks.
- Microsoft Fabric: Vysoce výkonná databáze a analytická platforma, která zahrnuje Datoví technici, službu Data Factory, Datová Věda, analýzu v reálném čase, datový sklad a databáze.
Zdroje pro zpracování datových proudů
K ingestování dat pro zpracování datových proudů v Azure se běžně používají následující služby:
- Azure Event Hubs: Služba pro příjem dat, kterou můžete použít ke správě front dat událostí, abyste zajistili, že se každá událost zpracuje v pořadí, přesně jednou.
- Azure IoT Hub: Služba pro příjem dat podobná službě Azure Event Hubs, ale optimalizovaná pro správu dat událostí ze zařízení IoT (Internet of-things ).
- Azure Data Lake Store Gen2: Vysoce škálovatelná služba úložiště se často používá ve scénářích dávkového zpracování , ale dá se použít také jako zdroj streamovaných dat.
- Apache Kafka: Opensourcové řešení pro příjem dat, které se běžně používá společně s Apache Sparkem.
Jímky pro zpracování datových proudů
Výstup zpracování datových proudů se často odesílá do následujících služeb:
- Azure Event Hubs: Slouží k zařazování zpracovaných dat do fronty pro další zpracování v podřízené části.
- Azure Data Lake Store Gen 2, Microsoft OneLake nebo Azure Blob Storage: Slouží k zachování zpracovaných výsledků jako souboru.
- Azure SQL Database, Azure Databricks nebo Microsoft Fabric: Slouží k zachování zpracovaných výsledků v tabulce pro dotazování a analýzu.
- Microsoft Power BI: Slouží ke generování vizualizací dat v reálném čase v sestavách a řídicích panelech.