Grundlegendes zu Datenströmen
Ein Datenstrom besteht aus einer fortlaufenden Datenreihe, die sich in der Regel auf bestimmte Point-in-Time-Ereignisse bezieht. Beispielsweise kann ein Datenstrom Details zu Nachrichten enthalten, die an eine Social Media-Microblogging-Website gesendet wurden, oder eine Reihe von Umgebungsmessungen, die von einem mit dem Internet verbundenen Wettersensor aufgezeichnet wurden. Streamingdatenanalysen werden am häufigsten verwendet, um zeitliche Veränderungen besser zu verstehen. Beispielsweise kann eine Marketingorganisation Stimmungsanalysen mit Social Media-Nachrichten durchführen, um festzustellen, ob eine Werbekampagne zu mehr positiven Kommentaren über das Unternehmen oder seine Produkte führt, oder ein landwirtschaftliches Unternehmen könnte Trends bei Temperatur und Niederschlag überwachen, um die Bewässerung und Getreideernte zu optimieren.
Häufige Ziele von Streamanalysen sind unter anderem
- Kontinuierliches Analysieren von Daten, um Probleme oder Trends zu melden.
- Gewinnen grundlegender Informationen zum Verhalten von Komponenten oder Systemen unter verschiedenen Bedingungen, um zukünftige Verbesserungen besser planen zu können.
- Auslösen bestimmter Aktionen oder Warnungen, wenn bestimmte Ereignisse auftreten oder Schwellenwerte überschritten werden.
Merkmale von Streamverarbeitungslösungen
Streamverarbeitungslösungen weisen in der Regel die folgenden Merkmale auf:
- Der Quelldatenstrom ist unbegrenzt. Daten werden dem Stream kontinuierlich hinzugefügt.
- Jeder Datensatz im Stream enthält temporale (zeitbasierte) Daten, die angeben, wann das Ereignis, auf das sich der Datensatz bezieht, aufgetreten ist (oder aufgezeichnet wurde).
- Die Aggregation von Streamingdaten erfolgt über Zeitfenster, z. B. die Aufzeichnung der Anzahl von Social Media-Beiträgen pro Minute oder des durchschnittlichen Niederschlags pro Stunde.
- Die Ergebnisse der Streamingdatenverarbeitung können verwendet werden, um die Automatisierung oder Visualisierung in Echtzeit (oder in Quasi-Echtzeit) zu unterstützen, oder sie können in einem Analysespeicher gespeichert werden, um mit anderen Daten für die Verlaufsanalyse kombiniert zu werden. Viele Lösungen kombinieren diese Ansätze, um sowohl Echtzeit- als auch Verlaufsanalysen zu unterstützen.