Transformações do fluxo de eventos

Concluído

A interface de edição de fluxo de eventos de arrastar e soltar oferece um método simples e fácil de usar para construir fluxos de trabalho complexos de processamento de dados de eventos.

Transformações do fluxo de eventos

Você pode transformar dados em um fluxo de eventos aplicando as seguintes transformações:

  • Filtrar: use a transformação Filter para filtrar eventos com base no valor de um campo na entrada. Dependendo do tipo de dados (número ou texto), a transformação mantém os valores que correspondem à condição selecionada, como is null ou is not null.
  • Gerenciar campos: essa transformação permite adicionar, remover, alterar o tipo de dados ou renomear campos provenientes de uma entrada ou outra transformação.
  • Agregação: use a transformação Agregar para calcular uma agregação (Soma, Mínimo, Máximo ou Média) sempre que um novo evento ocorrer durante um período de tempo. Essa operação também permite renomear essas colunas calculadas e filtrar ou fatiar a agregação com base em outras dimensões em seus dados. Você pode ter uma ou mais agregações na mesma transformação.
  • Agrupar por: Use a transformação Agrupar por para calcular agregações em todos os eventos dentro de uma determinada janela de tempo. Você pode agrupar pelos valores em um ou mais campos. É como se a transformação Agregada permitisse a renomeação de colunas, mas fornece mais opções para agregação e inclui opções mais complexas para janelas de tempo. Como o Agregado, você pode adicionar mais de uma agregação por transformação.
  • União: use a transformação União para conectar dois ou mais nós e adicionar eventos com campos compartilhados (com o mesmo nome e tipo de dados) em uma tabela. Os campos que não correspondem são descartados e não são incluídos na saída.
  • Expandir: use essa transformação de matriz para criar uma nova linha para cada valor dentro de uma matriz.
  • Join: esta junção é uma transformação para combinar dados de dois fluxos com base em uma condição de correspondência entre eles.

Funções de janelas no Eventstream

As funções de janela são uma maneira de executar operações nos dados contidos em janelas temporais, como agregar, filtrar ou transformar eventos de streaming que ocorrem dentro de um período de tempo especificado. As funções de janelas são úteis para analisar dados de streaming que mudam ao longo do tempo, como leituras de sensores, cliques na Web, transações on-line e muito mais, e fornecem grande flexibilidade para manter um registro preciso de eventos à medida que ocorrem.

Anteriormente, mencionamos o Grupo por operador no editor do processador de eventos. Essa interface gráfica nos permite definir a lógica necessária para processar, transformar e rotear dados de eventos. Há quatro parâmetros que precisam ser especificados nas configurações de grupo por operador para usar essas funções de janela, que incluem:

  • O tipo de janela, que pode ser tombamento, deslizamento, instantâneo, salto ou sessão.

    • O Tumbling Windows divide os eventos recebidos em intervalos fixos e não sobrepostos com base na hora de chegada.

      Esta janela mostra uma contagem de tweets por fuso horário a cada 10 segundos de intervalo.

      Captura de ecrã do conceito de janela de tombamento.

    • O Sliding Windows leva os eventos em intervalos fixos e sobrepostos com base no tempo e os divide.

      Uma janela é uma janela deslizante de 10 segundos que alerta o usuário sempre que um artigo é mencionado mais de três vezes em menos de 10 segundos

      Captura de ecrã do conceito de janela deslizante.

      Nota

      Todos os tweets pertencem ao mesmo tópico neste cenário

    • As janelas de sessão simplesmente dividem os eventos em intervalos variáveis e não sobrepostos que se baseiam em uma lacuna de falta de atividade.

      Uma janela, que mostra a contagem total de tweets que ocorrem dentro de cinco minutos um do outro

      Captura de ecrã do conceito da janela de sessão.

    • Janelas de salto As janelas de salto são diferentes das janelas de tombamento , pois modelam a janela de sobreposição agendada.

      Uma janela de salto de 10 segundos, que é atualizada a cada 5 segundos e fornece a contagem total de tweets nos últimos 10 segundos.

      Captura de ecrã do conceito de janela de salto.

    • instantâneo do windows instantâneo eventos de fluxo de eventos do grupo windows que têm o mesmo carimbo de data/hora e são diferentes das outras funções de janela, que exigem que a função seja nomeada. Nas janelas de instantâneo, você adiciona o System.Timestamp() à GROUP BY cláusula.

      Esta janela fornece uma contagem de tweets com o mesmo tipo de artigo que ocorrem exatamente ao mesmo tempo.

      Captura de tela do conceito de janela de instantâneo.

  • A duração da janela é a duração de cada intervalo de janela, que pode ser em segundos, minutos, horas e até dias. Um exemplo de duração, como 10 minutos, significa simplesmente que cada janela cobre 10 minutos de dados de eventos.

  • O deslocamento da janela é um parâmetro opcional que desloca o início e o fim de cada intervalo de janela por um período de tempo especificado. Um exemplo de quando esse parâmetro opcional é definido pode ser um deslocamento de janela de 2 minutos, o que significa que cada janela começa e termina 2 minutos mais tarde do que o normal.

  • A chave de agrupamento é uma ou mais colunas nos dados do evento pelas quais você deseja agrupar. Por exemplo, por ID do sensor ou categoria de item.

  • A função Agregação é uma ou mais das funções que você deseja aplicar a cada grupo de eventos em cada janela. Onde as contagens, somas, médias, min/max, e até mesmo funções personalizadas se tornam úteis.