ビッグ データを処理するための各ステージを理解する
データ レイクは、さまざまなビッグ データ アーキテクチャにおいて基本的な役割を果たします。 これらのアーキテクチャでは、次を作成します。
- エンタープライズ データ ウェアハウス。
- ビッグ データに対する高度な分析。
- リアルタイムの分析ソリューション。
ビッグ データを処理するソリューションには、すべてのアーキテクチャに共通で 4 つのステージがあります。
- 取り込む - インジェスト フェーズでは、ソース データを取得するために使用するテクノロジとプロセスを特定します。 このデータには、データ レイクに格納する必要がある、ファイル、ログ、その他の種類の非構造化データが含まれます。 使用するテクノロジは、データが転送される頻度によって異なります。 たとえば、データのバッチ移動には、Azure Synapse Analytics のパイプラインまたは Azure Data Factory のテクノロジを使用するのが最適な場合があります。 データのリアルタイムでのインジェストには、Apache Kafka for HDInsight または Stream Analytics が適切な選択である場合があります。
- ストア: ストア フェーズでは、取り込んだデータを配置する場所を特定します。 Azure Data Lake Storage Gen2 は、一般的に使われるビッグ データ処理テクノロジと互換性のある、セキュリティ保護されたスケーラブルなストレージ ソリューションを提供します。
- 準備してトレーニングする - 準備とトレーニングのフェーズでは、機械学習ソリューションのためのデータの準備およびモデルのトレーニングとスコアリングを実行するために使われるテクノロジを特定します。 このフェーズで使われる一般的なテクノロジは、Azure Synapse Analytics、Azure Databricks、Azure HDInsight、Azure Machine Learning です。
- モデル化と提供 - 最後に、モデル化と提供のフェーズには、ユーザーにデータを提供するテクノロジが含まれます。 これらのテクノロジは、Microsoft Power BI などの視覚化ツールや、Azure Synapse Analytics などの分析データ ストアを含む場合があります。 多くの場合、ビジネス要件に応じて、複数のテクノロジの組み合わせが使われます。