データ アプリケーション (ソースアライン済み)
運用ソースからデータを 1 回取り込むためにデータに依存しないエンジンを実装しない場合、またはデータに依存しないエンジンでは複雑な接続の助けにならない場合は、ソースアライン済みのデータ アプリケーションを作成する必要があります。 このアプリケーションは、外部データ ソースからデータを取り込むときに、データに依存しないエンジンと同じフローに従う必要があります。
概要
アプリケーション リソース グループは、テレメトリ、財務、CRM などの外部ソースからのデータ インジェストとエンリッチメントのみを処理します。 このレイヤーは、リアルタイム、バッチ、およびマイクロバッチで運用できます。
このセクションでは、データ ランディング ゾーン内の各データ アプリケーション (ソースアライン済み) リソース グループにデプロイされるインフラストラクチャについて説明します。
ヒント
データ メッシュの場合は、ソースごとにデプロイするか、ドメインごとにデプロイするかを選択できます。 データの標準化、データ品質、データ系列の原則に従う必要があります。 データ プラットフォーム運用チームは、標準コードのスニペットを開発し、これを実現するためにそれらを呼び出すことができます。
データ ランディング ゾーン内のデータ アプリケーション (ソースアライン済み) リソース グループごとに、次のものを作成する必要があります。
- Azure Key Vault
- 未加工状態からエンリッチ化状態にデータ変換するために開発されたエンジニアリング パイプラインを実行するための Azure Data Factory。
- Azure Databricks に取り込みジョブをデプロイするためにデータ アプリケーション (ソースアライン済み) によって使用されるサービス プリンシパル (Azure Databricks を使用している場合のみ)
Azure Event Hubs、Azure IoT Hub、Azure Stream Analytics、Azure Machine Learning などの他のサービスのインスタンスを作成することもできます。
注意
デルタ レイク標準を適用するには、Azure Synapse Spark や Azure Databricks などの Spark エンジンを使用する必要があります。
Azure Databricks を使用する場合は、Azure Synapse Analytics ワークスペースではなく Azure Data Factory をデプロイして、必要な機能のみに攻撃可能な領域を減らすことをお勧めします。
ただし、パイプラインと Spark を含む包括的な開発領域が必要な場合は、Azure Synapse Analytics を使用します。 spark とパイプラインの使用のみを許可するポリシーを適用して、Azure Synapse SQL プールにサイロを作成しないようにします。
Azure Key Vault
可能な限り、Azure Key Vault 機能を使用して Azure 内にシークレットを保存します。
各データ アプリケーション (ソースアライン済み) リソース グループまたはデータ ドメイン (メッシュの場合) で Azure Key Vault を使用します。 これにより、暗号化キー、シークレット、証明書の派生が環境の要件を確実に満たします。 これにより、管理業務の分離が向上し、異なる分類のキー、統合、シークレットが混在するリスクも軽減されます。
データ アプリケーション (ソースアライン済み) に関連するすべてのキーは、Azure Key Vault に含める必要があります。
重要
データ アプリケーション (ソースアライン済み) キー コンテナーは、最小特権モデルに従う必要があり、トランザクション スケールの制限と、環境間でのシークレット共有の両方を回避する必要があります。
Azure Data Factory
Azure Data Factory は、データ アプリケーション チームによって作成されたパイプラインを許可するようにデプロイし、開発されたパイプラインを使用してデータを未加工状態からエンリッチ化状態に変換できるようにします。 変換にはマッピング データ フローを使用し、複雑な変換には Azure Databricks (取り込み) ワークスペースまたは Azure Synapse Spark を使用します。
Azure Data Factory は、データ アプリケーション (ソースアライン済み) リポジトリの DevOps インスタンスに接続する必要があります。 この接続により、CI/CD のデプロイが可能になります。
Event Hubs
データ アプリケーション (ソースアライン済み) にデータをストリーミングする必要がある場合は、データ アプリケーション (ソースアライン済み) リソース グループにダウンストリーム Event Hubs をデプロイできます。