Comprendere i flussi dei dati
Un flusso di dati è costituito da una serie perpetua di dati, in genere correlati a specifici eventi temporizzato. Ad esempio, un flusso di dati può contenere i dettagli dei messaggi inviati a un sito di micro-blogging di social media o una serie di misurazioni ambientali registrate da un sensore meteo connesso a Internet. L'analisi dei dati di streaming viene spesso usata per comprendere meglio le modifiche nel tempo. Ad esempio, un'organizzazione di marketing può eseguire analisi del sentiment sui messaggi dei social media per vedere se una campagna pubblicitaria produce commenti più positivi sull'azienda o sui suoi prodotti o un'azienda agricola potrebbe monitorare le tendenze in temperatura e precipitazioni per ottimizzare l'irrigazione e la raccolta delle colture.
Gli obiettivi comuni per l'analisi di flusso includono
- Analisi continua dei dati per segnalare problemi o tendenze.
- Informazioni sul comportamento del componente o del sistema in diverse condizioni per pianificare i miglioramenti futuri.
- Attivazione di azioni o avvisi specifici quando vengono superati determinati eventi o soglie.
Caratteristiche delle soluzioni di elaborazione dei flussi
Le soluzioni di elaborazione dei flussi presentano in genere le caratteristiche seguenti:
- Il flusso di dati di origine non è associato. I dati vengono aggiunti al flusso in modo perpetuo.
- Ogni record di dati nel flusso include dati temporali (basati sul tempo) che indicano quando si è verificato l'evento a cui è correlato il record (o è stato registrato).
- L'aggregazione dei dati di streaming viene eseguita su finestre temporali, ad esempio registrando il numero di post dei social media al minuto o la media delle precipitazioni all'ora.
- I risultati dell'elaborazione dei dati di streaming possono essere usati per supportare l'automazione o la visualizzazione in tempo reale (o quasi in tempo reale) o per essere salvati in modo permanente in un archivio analitico da combinare con altri dati per l'analisi cronologica. Molte soluzioni combinano questi approcci per supportare sia l'analisi in tempo reale che quella cronologica.