Eventstream の変換

完了

ドラッグ アンド ドロップのイベントストリーム編集 インターフェイスは、複雑なイベント データ処理ワークフローを構築するための簡単でユーザー フレンドリな方法を提供します。

Eventstream の変換

イベントストリーム内のデータを変換するには、以下の変換を適用します。

  • フィルター:フィルター変換を使用すると、入力内のフィールドの値に基づいてイベントをフィルター処理できます。 データ型 (数値またはテキスト) に応じて、変換は nullis not null などの選択された条件に一致する値を保持します。
  • フィールドの管理:この変換を使用すると、データ型の追加、削除、変更を行ったり、入力や別の変換から入って来るフィールドの名前の変更を行うことができます。
  • 集計:集計変換を使用すると、一定期間内に新しいイベントが発生するたびに、集計 (合計、最小、最大、または平均) を計算できます。 この操作では、これらの計算列の名前を変更したり、データ内の他のディメンションに基づいて集計をフィルター処理したりスライスしたりすることもできます。 同じ変換に 1 つ以上の集計を含めることができます。
  • Group by: Group by 変換は、特定の時間枠内のすべてのイベントの集計を計算するために使用します。 1 つまたは複数のフィールドの値でグループ化することができます。 これは集計変換で列の名前を変更できることに似ていますが、より多くの集計オプションが用意されており、より複雑な時間枠のオプションが含まれています。 集計と同様に、変換ごとに複数の集計を追加できます。
  • 和集合:和集合変換を使用すると、2 つ以上のノードを接続し、(名前とデータ型が同じ) 共有フィールドを持つイベントを 1 つのテーブルに追加できます。 一致しないフィールドは削除され、出力に含まれません。
  • 展開:この配列変換を使用すると、配列内の値ごとに新しい行を作成できます。
  • 結合: この結合は、2 つのストリームのデータを、それらの間の一致条件に基づいて結合する変換です。

Eventstream のウィンドウ関数

ウィンドウ関数は、指定された期間内に発生するストリーミング イベントの集計、フィルター処理、変換など、テンポラル ウィンドウに含まれるデータに対して操作を実行する方法の 1 つです。 ウィンドウ関数は、時間の経過と共に変化するストリーミング データの分析に役立ちます。たとえば、センサーの読み取り、Web クリック、オンライン トランザクションなどです。また、イベントの発生時に正確な記録を残すための優れた柔軟性を備えています。

以前に、イベント プロセッサ エディターの Group by 演算子について説明しました。 このグラフィカル インターフェイスを使って、イベント データの処理、変換、ルーティングに必要なロジックを定義できます。 これらのウィンドウ関数を使うには、次のように、Group by 演算子の設定で 4 つのパラメーターを指定する必要があります。

  • ウィンドウの種類タンブリング、スライディング、スナップショット、ホッピング、またはセッションがあります。

    • タンブリング ウィンドウは、到達時間に基づいて、受信イベントを重複しない一定の間隔に分割します。

      このウィンドウには、10 秒間隔でタイム ゾーンあたりのツイート数が表示されます。

      タンブリング ウィンドウの概念のスクリーンショット。

    • スライディング ウィンドウは、時間に基づいてイベントを重複する一定の間隔に取り込み、それらを分割します。

      ウィンドウは、10 秒未満で記事が 3 回以上メンションされるたびにユーザーに警告する 10 秒のスライディング ウィンドウです

      スライディング ウィンドウの概念のスクリーンショット。

      Note

      このシナリオでは、すべてのツイートが同じトピックに属しています

    • セッション ウィンドウは、アクティビティの欠如のギャップに基づいて、イベントを可変の重複しない間隔に単純に分割します。

      5 分以内に発生したツイートの合計数が表示されるウィンドウ

      セッション ウィンドウの概念のスクリーンショット。

    • ホッピング ウィンドウ。ホッピング ウィンドウは、スケジュールされた重複するウィンドウをモデル化するので、タンブリング ウィンドウとは異なります。

      5 秒ごとに更新され、過去 10 秒間のツイートの合計数を提供する 10 秒のホッピング ウィンドウ。

      ホッピング ウィンドウの概念のスクリーンショット。

    • スナップショット ウィンドウ。スナップショット ウィンドウは、タイムスタンプが同じイベント ストリーム イベントをグループ化します。関数に名前を付ける必要がある他のウィンドウ関数とは異なります。 スナップショット ウィンドウで、System.Timestamp()GROUP BY 句に追加します。

      このウィンドウには、同じ記事の種類を持ち、まったく同じタイミングで生じたツイートの数が表示されます。

      スナップショット ウィンドウの概念のスクリーンショット。

  • ウィンドウ期間は各ウィンドウ間隔の長さです。秒、分、時間、さらには日単位を指定できます。 たとえば 10 分などの期間の場合、単に各ウィンドウが 10 分のイベント データをカバーすることを意味します。

  • ウィンドウ オフセットは省略可能なパラメーターです。各ウィンドウ間隔の開始と終了を、指定した時間分シフトします。 この省略可能なパラメーターの設定例として、ウィンドウ オフセットが 2 分だとします。これは、各ウィンドウの開始と終了が通常より 2 分遅くなることを意味します。

  • グループ化キーは、グループ化するイベント データ内の 1 つ以上の列です。 たとえば、センサー ID や項目カテゴリなどです。

  • 集計関数は、各ウィンドウの各イベント グループに適用する 1 つ以上の関数です。 ここでは、カウント、合計、平均、最小値または最大値、さらにカスタム関数が役立ちます。