Compreender os fluxos de dados
Um fluxo de dados consiste em uma série perpétua de dados, normalmente relacionados a eventos point-in-time específicos. Por exemplo, um fluxo de dados pode conter detalhes de mensagens enviadas para um site de microblog de mídia social ou uma série de medições ambientais registradas por um sensor meteorológico conectado à Internet. A análise de dados de streaming é mais frequentemente usada para entender melhor as mudanças ao longo do tempo. Por exemplo, uma organização de marketing pode realizar análises de sentimento em mensagens de mídia social para ver se uma campanha publicitária resulta em comentários mais positivos sobre a empresa ou seus produtos, ou uma empresa agrícola pode monitorar tendências de temperatura e precipitação para otimizar a irrigação e a colheita de colheitas.
Os objetivos comuns para a análise de fluxo incluem:
- Analisar continuamente os dados para relatar problemas ou tendências.
- Compreender o comportamento do componente ou do sistema sob várias condições para ajudar a planejar aprimoramentos futuros.
- Acionar ações ou alertas específicos quando determinados eventos ocorrem ou os limites são excedidos.
Características das soluções de processamento de fluxo
As soluções de processamento de fluxo normalmente apresentam as seguintes características:
- O fluxo de dados de origem é ilimitado - os dados são adicionados ao fluxo perpetuamente.
- Cada registro de dados no fluxo inclui dados temporais (baseados no tempo) que indicam quando o evento ao qual o registro se refere ocorreu (ou foi gravado).
- A agregação de dados de streaming é realizada em janelas temporais - por exemplo, registrando o número de postagens de mídia social por minuto ou a precipitação média por hora.
- Os resultados do processamento de dados de streaming podem ser usados para suportar automação ou visualização em tempo real (ou quase em tempo real), ou persistidos em um repositório analítico para serem combinados com outros dados para análise histórica. Muitas soluções combinam essas abordagens para oferecer suporte a análises históricas e em tempo real.