Azure でのクラウドスケール分析用の複数のデータ ゾーン
この参照アーキテクチャは、クラウド規模の分析の基本バージョンを実装し、分析操作の最新化に役立つ新しいビジネス ユニットをホストする準備が整った組織向けです。 このより複雑なシナリオでは、複数のランディング ゾーン、データ アプリケーション、およびデータ製品が使用されます。
Apache Hive および Hive ロゴは、米国およびその他の国の Apache Software Foundation の登録商標または商標です。 これらのマークの使用によって、Apache Software Foundation による保証は示されません。
問題の説明
この例の架空の会社である Relecloud は、共有コンピューティングとストレージ リソースをグローバル組織に提供するプライベート クラウド プロバイダーです。 Relecloud はコンピューティング リソースを提供しますが、独自の内部操作でプラットフォームを制限することは望んでいません。 そのため、内部コンピューティングのニーズは Microsoft Azure に依存しています。
運用グループのデータ アナリストは、クラウド サービスからのテレメトリ データを使用して、顧客がプラットフォームをどのように使用しているかを理解します。 請求グループのアナリストの別のチームは、請求データを調査して、どのサービスが最も収益を上げるかについての分析情報を得ます。
前四半期、運用チームは分析プラットフォームを Azure に移行することで、その分析プラットフォームを最新化しました。 クラウド規模の分析を実装する 1 つの目標は、プラットフォームをスケーリングし、新しい組織のワークロードを追加する可能性を最大化することでした。
現在、課金グループは従来の分析ソリューションを超えて発展しています。 分析する請求書の量がオンプレミス サーバーに対して大きすぎます。 チームは、運用グループのリーダーに従い、Azure でデータ分析プラットフォームを最新化することにしました。
課金グループのアナリストのスキルは、運用グループのアナリストとは異なります。 課金アナリストは、操作と同じツールを使用するように制限されたくありません。 課金グループは組織の別の部分にあり、ニーズを満たすポリシーと手順を柔軟に実装したいと考えています。
アーキテクチャ ソリューション
Relecloud は、課金グループの新しいランディング ゾーンを追加することで、分析プラットフォームをスケーリングします。 このランディング ゾーンは、ビジネス ニーズを満たす分析ソリューションを実装するための仮想ワークスペースを課金グループに提供します。 ランディング ゾーンを組織の他のリソースとは別にすることで、課金グループは独自のアクセス ポリシーを実装し、サービスのコストを考慮できます。
次の図は、すべての Azure サービスを表しているわけではありません。 この図は、アーキテクチャ内のリソースを整理する主要な概念を強調するために簡略化されています。
データ管理ランディング ゾーン
クラウド規模の分析実装の重要な要件は、データ管理ランディング ゾーンです。 このサブスクリプションには、ファイアウォールやプライベート DNS ゾーンなどの共有ネットワーク コンポーネントを含め、すべてのランディング ゾーンで共有されるリソースが含まれています。 また、データとクラウド ガバナンスのためのリソースも含まれています。 Microsoft Purview と Databricks Unity カタログは、テナント レベルでサービスとしてデプロイされています。
Relecloud は、運用グループのデータ分析ソリューションをデプロイしたときに、データ管理ランディング ゾーンを作成しました。 課金グループがプラットフォームに参加すると、同じデータ管理ランディング ゾーンを使用して、運用グループと共通のリソースを共有します。
運用データ ランディング ゾーン
運用グループのデータ ランディング ゾーンには、次のソリューションがあります。
操作データ アプリケーション
チームは、Azure Databricks の Apache Spark ジョブを使用してサービス テレメトリ データを取り込み、Azure Data Lake Storage アカウントに格納する、ソースアラインデータ アプリケーション を構築しました。
このプロセスは、ソース システムからデータ as-is をコピーしますが、変換は行いません。 アナリストは、ソース システムをオーバーロードすることなく、分析プラットフォームでコピーされたデータを操作できます。 運用チームは、このデータ アプリケーション専用のデプロイを作成する代わりに、共有 取り込み & 処理 リソース グループ内の Databricks ワークスペースを使用します。
Relecloud のお客様は、クラウド アカウントを作成して、プライベート クラウドでリソースと課金を管理できます。 各顧客は複数のアカウントを持つことができます。 分析チームは、クラウド アカウント データをインポートするデータ アプリケーションを構築しました。 データの量と頻度はテレメトリ データよりもはるかに低いため、チームは Spark ジョブを使用する必要はありません。 代わりに、データをコピーする Azure Data Factory パイプラインを作成しました。
Azure Database for MySQL は Hive メタストアとして機能し、Azure SQL Database は Azure Data Factory メタストアです。
運用データ製品
Relecloud アナリストは、コンシューマー向けの新しいデータ アプリケーションを作成することで、ソースアラインデータアプリケーションのデータから価値を得ます。 これらのコンシューマー向けのデータ アプリケーションの 1 つは、クラウド サービス レコメンダー モデルです。 Relecloud データ サイエンティストは、Azure Machine Learning を使用して、クラウド アカウントが消費するサービスを確認し、役に立つ可能性のある関連サービスを提案するモデルを構築しました。 チームは、ランディング ゾーンで実行され、Azure Machine Learning によって管理されている Azure Kubernetes Service (AKS) クラスターにこのモデルをデプロイします。 クラウド規模の分析の外部で実行されるアプリケーションは、AKS エンドポイントを呼び出して推奨事項を取得できます。
課金チームがランディング ゾーンを作成した後、運用チームは、管理チームが要求する新しいデータ製品を作成します。 管理チームは、クラウド サービス レコメンダーがデータ アプリケーション 生成する収益を把握したいと考えています。 新しいレコメンダー収益データ製品は、クラウド サービス レコメンダーとサービス別収益からのデータを Azure Synapse Analytics を使用して組み合わせることによる新しいデータ製品です。 ビジネス アナリストは、Microsoft Power BI を使用して Azure Synapse に接続して、この新しいデータ製品から分析情報を見つけてレポートすることができます。
課金データ ランディング ゾーン
課金グループは、オンプレミス システムを使用して分析を強化していましたが、データ量が増加し、会社が作業に依存するにつれて、システムのペースを維持できませんでした。 このグループは、クラウドに移行することでプラットフォームを最新化します。
課金グループは、ランディング ゾーンを運用グループと共有しませんが、ニーズに最も適したプラットフォームを自由に構築できる独自のランディング ゾーンを取得します。 新しいランディング ゾーンは、仮想ネットワーク ピアリングを使用して、データ管理ランディング ゾーンと他のすべてのデータ ランディング ゾーンに接続されます。 このメカニズムにより、Azure 内部ネットワークを介してデータを安全に共有できます。
請求データ利用アプリケーション
既存のシステムから分析プラットフォームにデータを配置するために、課金グループは 2 つのデータ アプリケーションを構築します。 最初のアプリケーションは、顧客の完全な一覧と、顧客の住所、場所、販売員の割り当てなど、すべての関連データを含む顧客データを取り込みます。 2 番目のアプリケーションでは、会社の請求書履歴がインポートされます。これには、顧客へのすべての請求料金と関連する支払いデータが含まれます。
これらのアプリケーションはどちらも、共有 Azure Synapse ワークスペース内のパイプラインを利用します。 各アプリケーションには、コスト会計とセキュリティの境界を容易にする専用のコンピューティング プールがあります。 アプリケーションは共有リソースで完全に実装できるため、課金グループはこれらのデータ アプリケーションのデプロイを作成する必要はありません。
請求データプロダクト
課金アナリストは、Revenue by service という新しいデータ製品を作成し、各クラウド サービスが Relecloud に対して生成する収益を分析します。 この製品は、請求書インジェストのデータに依存します。 製品は、運用ランディング ゾーンにも接続し、サービス使用状況データを読み取ります。 データ アプリケーションと同様に、データ製品も共有 Azure Synapse ワークスペースに依存します。
次の手順
Azureでセキュリティで保護されたクラウドスケール分析のための
詳細については、次の記事を参照してください。
- クラウド規模の分析のためのデータ製品としての Azure Machine Learning
- クラウド規模の分析 で Azure Synapse Analytics を使用する