クラウド規模の分析のデータ管理ランディング ゾーンの概要
データ管理ランディング ゾーンは管理機能であり、クラウド規模の分析の中核です。 これは分析プラットフォームのガバナンスを担当します。
データ管理ランディング ゾーンは、Azure ランディング ゾーンの同一の標準サービスを備えた別個のサブスクリプションです。 これを使用すると、データ ランディング ゾーン内のデータ レイクやポリグロット ストレージに接続するクローラーによる、お使いのデータのデータ ガバナンスが可能になります。 データ管理ランディング ゾーンは、仮想ネットワーク ピアリングによって、データ ランディング ゾーンと接続サブスクリプションに接続されます。
このアーキテクチャを開始点として使用します。 データ管理ランディング ゾーンの実装を計画する際は、Visio ファイルをダウンロードし、特定のビジネスおよび技術要件に合わせて変更してください。
Note
"ポリグロットな永続化" はストレージ用語であり、さまざまなデータ型とそれらのストレージ ニーズをサポートするために、異なるデータ ストレージおよびデータ ストア テクノロジを選択することを表わしています。 基本的に、ポリグロットな永続化は、1 つのアプリケーションで、中核となるデータベースやストレージのテクノロジを複数使用できるという概念です。
重要
データ管理ランディング ゾーンは、適切なガバナンスを持つ管理グループの下に、独立したサブスクリプションとしてデプロイする必要があります。 その後、組織全体にわたるガバナンスを制御できます。 Azure ランディング ゾーン アクセラレータでは、Azure ランディング ゾーンにどのように取り組む必要があるかが示されています。
データ カタログ
リソース グループ: governance-rg
データ カタログでは、データ情報を一元的に登録して管理し、それを組織で使用できるようにします。 これによって企業では、異なるプロジェクト チームによる冗長なデータ インジェストによって発生する、重複したデータ製品が確実に回避されます。
データ カタログ サービスを作成して、データ ランディング ゾーン全体に格納されているデータ製品のメタデータを定義することをお勧めします。
クラウド規模の分析では、Microsoft Purview を使用して、エンタープライズ データ ソースの登録、分類、データ品質の確保、セキュリティで保護されたセルフサービス アクセスの提供を行います。
Microsoft Purview は、テナント ベースのサービスであり、データ ランディング ゾーンのリージョンにデプロイされたマネージド仮想ネットワークを作成することで、各データ ランディング ゾーンと通信できます。 Microsoft Purview のマネージド仮想ネットワーク内で、利用可能な任意の Microsoft Purview リージョンに Azure Managed Virtual Network Integration Runtime (IR) をデプロイできます。 そこから、マネージド仮想ネットワーク IR はプライベート エンドポイントを使用して、サポートされているデータ ソースに安全に接続し、スキャンできます。 詳細については、Microsoft Purview アカウントでマネージド仮想ネットワークを使用する方法に関する記事を参照してください。 マネージド仮想ネットワーク内にマネージド仮想ネットワーク IR を作成することで、データ統合プロセスの分離と安全を確保できます。
Note
このドキュメントでは、主にガバナンスのための Microsoft Purview の使用に焦点を当てていますが、企業によっては Alation、Okera、Collibra などの他の製品に投資している可能性があります。 これらのソリューションはサブスクリプション ベースであるため、データ管理ランディング ゾーンへのデプロイをお勧めします 何らかのカスタム統合が必要になる可能性があることにご注意ください。
詳細については、「データ カタログ」と、クラウド規模の分析のための Microsoft Purview デプロイのベスト プラクティスに関するページを参照してください。
データ品質の管理
リソース グループ: governance-rg2
現在のソリューションを使い続けます。
分析と AI の資産全体にわたって品質の問題がレプリケートされないように、データ ソースにできるだけ近いデータ品質を管理する必要があります。 品質のメトリックと検証をデータ統合に移動すると、品質プロセスは、データに最も近いチームに配置されます。 これらのチームは、データ資産について最も深く理解しています。
データ系列でもデータ品質の信頼性が得られるため、すべてのデータ製品および製品にそれを提供する必要があります。
データ品質の管理の詳細については、「データ品質」を参照してください。
データ モデリング リポジトリ
リソース グループ: governance-rg2
エンティティ リレーションシップ モデルは、データ管理ランディング ゾーン内の中央の場所にキャプチャして格納する必要があります。 これによってデータ コンシューマーに、概念図を見つけるための単一の場所が提供されます。
多くのお客様は、インジェストの前に ER Studio や iServer を使用してデータ製品をモデル化しています。
マスター データの管理
リソース グループ: governance-rg2
マスター データ管理コントロールは、データ管理ランディング ゾーン内に置かれています。 データ メッシュでのマスター データ管理には、データ メッシュに関して特に注意する必要のある具体的な考慮事項が含まれています。
多くのマスター データ管理ソリューションは、Microsoft Entra ID と完全に統合されます。 この統合により、データをセキュリティで保護し、さまざまなユーザー グループに異なるビューを提供できます。
詳細については、マスター データ管理システムに関するページを参照してください。
API カタログ
リソース グループ: governance-rg2
データ アプリケーション チームは、おそらく、データ アプリケーションのためにさまざまな API を作成することになります。 これらの API を組織全体にわたって検出するのは困難な場合があります。 データ管理ランディング ゾーンに API カタログを配置すると、この問題を解決できます。
API カタログは、ドキュメントを標準化するのに役立てることができ、API に関する内部コラボレーションの場所が提供されることになります。 また、組織全体にわたって消費、発行、ガバナンスの制御を促進することもできます。
データの共有とコントラクト
リソース グループ: governance-rg2
クラウド規模の分析では、Microsoft Entra エンタイトルメント管理または Microsoft Purview ポリシーを使用して、データ共有へのアクセスを制御します。 それでもなお、共有とコントラクトのリポジトリが必要になる場合があります。 このリポジトリは組織の機能であり、データ管理ランディング ゾーン内に配置する必要があります。
コントラクトでは、データの検証、モデル、セキュリティ ポリシーに関する情報を提供する必要があります。
詳細については、「データ コントラクト」を参照してください
Azure Container Registry
リソース グループ: containers-rg
Azure Container Registry は、データ管理ランディング ゾーンによってホストされます。 Azure Container Registry を使用すると、データ プラットフォーム操作で、データ アプリケーション チームが使用する標準コンテナーを、データ サイエンス プロジェクトで使用するためにデプロイできます。
Azure Synapse の Private Link ハブ
リソース グループ: synapse-link-rg
Azure Synapse Analytics の Private Link ハブは、セキュリティで保護されたネットワークと Azure Synapse Studio の Web エクスペリエンスを接続する Azure リソースです。 クラウド規模の分析では、これらのハブからのプライベート リンクを使用して、Azure Virtual Network を Azure Synapse Studio に安全に接続します。
プライベート リンクを使用して Azure Synapse Studio に接続するには、2 つのステップがあります。
- Private Link ハブ リソースを作成します。
- お使いの Azure Virtual Network からその Private Link ハブへのプライベート エンドポイントを作成します。
その後は、プライベート エンドポイントを使用して、Azure Synapse Studio と安全に通信できます。 これらのプライベート エンドポイントは、オンプレミス ソリューションまたは Azure プライベート DNS のいずれかを使用して、お使いの DNS ソリューションと統合します。
詳細については、プライベート リンクを使用した Azure Synapse Studio への接続に関する記事を参照してください。
オートメーション インターフェイス (オプション)
組織では、クラウド規模の分析機能を強化するために、多くのオートメーション サービスを作成することを決定する場合があります。 これらのオートメーション サービスは、分析の状態に関する適合性とオンボーディングのソリューションを動作させます。
これらのオートメーション サービスを構築する場合は、データ マーケットプレースと運用コンソールの両方として機能するユーザー インターフェイスが必要です。 このインターフェイスは、「メタ データ標準」で前に説明したように、基になるメタデータ ストアに依存する必要があります。
データ マーケットプレースまたは運用コンソールでは、オンボード、メタデータ登録、セキュリティ プロビジョニング、データ ライフサイクル、監視を容易にするために、中間層のマイクロサービスを呼び出します。
メタデータ ストアをホストするために、automationdb-rg リソース グループをプロビジョニングできます。
重要
これらのどのオートメーション サービスも製品ではなく、ロードマップ項目を示すものでもありません。 これらが一覧で示されているのは、どの項目を自動化する必要があるかを検討するのに役立てるためです。
サービス
サービス | サービス スコープ |
---|---|
データ ランディング ゾーンのプロビジョニング | このサービスで、新しいデータ ランディング ゾーンを作成します。 高頻度で使われる可能性は低いですが、これはエンド ツー エンドのオンボード ソリューションの完全性のために含まれています。 詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください |
データ製品のオンボード | このサービスでは、オンボードされたテナントに関連するリソース グループの作成と修正を行います。 また、オンボードされた任意のテナントまたはサービスについて、SKU のアップグレードとダウングレード、リソース グループのアクティブ化と非アクティブ化を行う機能が含まれています。 これにより、新しいデータ ランディング ゾーン DevOps が作成されます。 詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください |
アクセスのプロビジョニング | このサービスでは、SPN/UPN を使用して、アクセス パッケージ、アクセス ポリシー、資産アクセス承認プロセス (手動または自動) を作成します。 過去 90 日間にユーザーが送信したサブスクリプション要求 (資産) の一覧を提供する API を公開することもできます。 詳細については、データ アクセス管理に関するページを参照してください |
データに依存しないインジェスト | このマイクロサービスでは、データ ランディング ゾーンへのインジェストのために、新しいデータ ソースが作成されます。 これは、各データ ランディング ゾーン内の Azure Data Factory SQL Database メタストアと通信することによって行われます。 詳細については、Azure でのクラウド規模の分析が、自動インジェスト フレームワークでどのようにサポートされているかに関するページを参照してください |
Metadata | このサービスでは、プラットフォームのメタデータの公開と作成を行います。 詳細については、「メタデータ標準」を参照してください |
データのライフサイクル | このサービスは、メタデータに基づいてデータのライフサイクルを管理する役割を担います。 このメンテナンスには、コールド ストレージへのデータの移動や、保持する必要がなくなったレコードの削除が含まれます。 詳細については、「データ ライフサイクル管理」を参照してください |
データ ドメインのオンボード | データ メッシュにのみ適用されます。 このサービスでは、新しいドメインに関連するメタデータをキャプチャし、必要に応じて新しいドメインをオンボードします。 マイクロサービスに組み込む可能性のあるドメインまたはサービス ラインを、作成、更新、アクティブ化、非アクティブ化することもできます。 詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください |
データの標準化
これは、データ管理ランディング ゾーンの特定の機能または製品ではありませんが、すべてのサービスにわたるデータの標準化を求める必要があります。 データの標準化では、データが到着して格納される形式を定義します。
ヒント
すべてのサービスとストレージにわたり、可能な場合は常に、事実上の業界標準としてデータ レイク形式を使用します。
詳細については、「データの標準化」を参照してください。