データ ストリームについて理解する
データ ストリームは、一連の永続的なデータで構成されており、通常は特定の時点のイベントに関連します。 たとえば、データのストリームには、ソーシャル メディアのマイクロブログ サイトに送信されたメッセージの詳細や、インターネットに接続された気象センサーによって記録された環境に関する一連の測定値が含まれている場合があります。 ストリーミング データ分析は、多くの場合、時間の経過に伴う変化をより深く理解するために使用されます。 たとえば、マーケティング組織では、ソーシャル メディア メッセージに対してセンチメント分析を実行し、広告キャンペーンによって会社やその製品に関する肯定的なコメントが増えるかどうかを確認したり、農業ビジネスでは、灌漑や作物の収穫を最適化するために、気温と降水量の傾向を監視したりするかもしれません。
ストリーム分析には、次のような共通の目的があります
- 問題や傾向を報告するために、データを継続的に分析する。
- 今後の機能強化の計画に生かすため、さまざまな条件でのコンポーネントやシステムの挙動について理解する。
- 特定のイベントが発生したとき、またはしきい値を超えたときに、特定のアクションまたはアラートをトリガーする。
ストリーム処理ソリューションの特性
ストリーム処理ソリューションは、通常、次の特性を示します。
- ソース データ ストリームは "無制限" です。データはストリームに永続的に追加されます。
- ストリーム内の各データ レコードには、レコードが関連するイベントがいつ発生したか (または記録されたか) を示す "テンポラル" (時間ベース) なデータが含まれます。
- ストリーミング データの集計は、テンポラルな "ウィンドウ" で実行されます。たとえば、1 分あたりのソーシャル メディアの投稿数や 1 時間あたりの平均降水量の記録です。
- ストリーミング データ処理の結果を使用して、リアルタイム (または "ほぼ" リアルタイム) の自動化または視覚化をサポートしたり、分析ストアに保持して履歴分析のために他のデータと組み合わせたりすることができます。 多くのソリューションでは、これらのアプローチを組み合わせて、リアルタイム分析と履歴分析の両方をサポートしています。