Principy datových proudů
Datový proud se skládá z trvalé řady dat, která obvykle souvisí s konkrétními událostmi k určitému bodu v čase. Stream dat může například obsahovat podrobnosti o zprávách odeslaných na web mikro blogů sociálních médií nebo řadu měření prostředí zaznamenaných senzorem počasí připojeného k internetu. Streamovaná analýza dat se nejčastěji používá k lepšímu pochopení změn v průběhu času. Například marketingová organizace může provádět analýzu mínění u zpráv sociálních médií a zjistit, jestli reklamní kampaň vede k pozitivním komentářům o společnosti nebo jejích produktech, nebo zemědělský podnik může sledovat trendy teploty a srážky za účelem optimalizace zavlažování a sklizně plodin.
Mezi běžné cíle analýzy datových proudů patří:
- Průběžná analýza dat za účelem hlášení problémů nebo trendů
- Pochopení chování součástí nebo systému za různých podmínek, které vám pomůžou naplánovat budoucí vylepšení.
- Aktivace konkrétních akcí nebo upozornění při překročení určitých událostí nebo prahových hodnot
Charakteristiky řešení pro zpracování datových proudů
Řešení pro zpracování datových proudů obvykle vykazují následující charakteristiky:
- Zdrojový datový proud není nevázaný – data se do datového proudu přidávají trvale.
- Každý datový záznam v datovém proudu obsahuje časová (časová) data označující, kdy k události, ke které záznam došlo (nebo byla zaznamenána).
- Agregace streamovaných dat se provádí v časových oknech – například zaznamenávání počtu příspěvků sociálních médií za minutu nebo průměrné srážky za hodinu.
- Výsledky zpracování streamovaných dat je možné použít k podpoře automatizace nebo vizualizace v reálném čase (nebo téměř v reálném čase) nebo trvalé v analytickém úložišti, které se mají kombinovat s dalšími daty pro historickou analýzu. Řada řešení tyto přístupy kombinuje, aby podporovala jak analýzu v reálném čase, tak i historickou analýzu.