Reconhecer fluxos de dados

Concluído

Um fluxo de dados consiste em uma série perpétua de dados, normalmente relacionados a eventos pontuais específicos. Por exemplo, um fluxo de dados pode conter detalhes de mensagens enviadas a um site de microblog de mídia social ou uma série de medidas ambientais registradas por um sensor meteorológico conectado à Internet. A análise de dados de streaming geralmente é usada para entender melhor as alterações ao longo do tempo. Por exemplo, uma organização de marketing pode realizar análises de sentimento em mensagens de mídia social para ver se uma campanha publicitária resulta em comentários mais positivos sobre a empresa ou os produtos dela, ou uma empresa agrícola pode monitorar tendências de temperatura e chuva para otimizar a irrigação e a colheita de culturas.

As metas comuns para análise de fluxo incluem

  • Analisar continuamente os dados para relatar problemas ou tendências.
  • Noções básicas sobre o comportamento do componente ou do sistema em várias condições para ajudar a planejar aprimoramentos futuros.
  • Disparar ações ou alertas específicos quando determinados eventos ocorrem ou os limites são excedidos.

Características das soluções de processamento de fluxo

As soluções de processamento de fluxo normalmente exibem as seguintes características:

Um diagrama mostrando um fluxo de dados, incluindo um campo de data e hora sendo processado, agregado por dia e visualizado e armazenado.

  1. O fluxo de dados de origem não é associado – os dados são adicionados ao fluxo perpetuamente.
  2. Cada registro de dados no fluxo inclui dados temporais (baseados em tempo) que indicam quando o evento ao qual o registro se relaciona ocorreu (ou foi registrado).
  3. A agregação de dados de streaming é executada em janelas temporais, por exemplo, registrando o número de postagens de mídia social por minuto ou a média de chuva por hora.
  4. Os resultados do processamento de dados de streaming podem ser usados para dar suporte à automação ou visualização em tempo real (ou quase em tempo real) ou persistidos em um repositório analítico para serem combinados com outros dados para análise histórica. Muitas soluções combinam essas abordagens para dar suporte a análises históricas e em tempo real.