Comprendre les flux de données

Effectué

Un flux de données se compose d’une série perpétuelle de données, généralement liées à des événements ponctuels spécifiques. Par exemple, un flux de données peut contenir des détails de messages envoyés à un site de microblogs de réseau social, ou une série de mesures environnementales enregistrées par un capteur météo connecté à Internet. L’analytique des données de streaming est le plus souvent utilisée pour mieux comprendre les changements au fil du temps. Par exemple, une organisation marketing peut effectuer une analyse des sentiments sur des messages de réseau social pour voir si une campagne publicitaire génère des commentaires plus positifs sur l’entreprise ou ses produits, ou une entreprise agricole peut monitorer les tendances de température et de pluie pour optimiser l’irrigation et les récoltes.

Les objectifs courants de l’analyse des flux sont notamment

  • Analyse continue des données pour signaler des problèmes ou des tendances.
  • Compréhension du comportement des composants ou du système dans différentes conditions pour planifier des améliorations futures.
  • Déclenchement d’actions ou d’alertes spécifiques quand certains événements se produisent ou que des seuils sont dépassés.

Caractéristiques des solutions de traitement de flux

Les solutions de traitement de flux présentent généralement les caractéristiques suivantes :

A diagram showing a stream of data including a date and time field being processed, aggregated by day, and visualized and stored.

  1. Le flux des données sources n’est pas lié : les données sont ajoutées au flux de manière perpétuelle.
  2. Chaque enregistrement de données dans le flux comprend des données temporelles (basées sur le temps) indiquant quand l’événement auquel se rapporte l’enregistrement s’est produit (ou a été enregistré).
  3. L’agrégation des données de streaming est effectuée sur des fenêtres de temps : par exemple, en enregistrant le nombre de publications sur les réseaux sociaux par minute ou la pluviométrie moyenne par heure.
  4. Les résultats du traitement des données de streaming peuvent être utilisés pour prendre en charge l’automatisation ou la visualisation en temps réel (ou en quasi-temps réel), ou être conservés dans un magasin analytique pour être combinés avec d’autres données pour l’analyse historique. De nombreuses solutions combinent ces approches pour prendre en charge l’analytique en temps réel et historique.