データ管理用着陸ゾーン
データ管理ランディング ゾーンは、クラウド規模の分析の中心となる管理機能です。 これは分析プラットフォームのガバナンスを担当します。
データ管理ランディング ゾーンは、Azure ランディング ゾーンの同一の標準サービスを備えた別個のサブスクリプションです。 これにより、クローラーを介してデータのデータ ガバナンスを行うことができます。クローラーは、データ ランディング ゾーン内のデータ レイクとポリグロット ストレージに接続します。 データ管理ランディング ゾーンは、仮想ネットワーク ピアリングによって、データ ランディング ゾーンと接続サブスクリプションに接続されます。
このアーキテクチャは出発点であり、データ管理ランディング ゾーンの実装を計画するときに、特定のビジネス要件と技術要件に合わせて変更できます。
Note
Polyglot パーシステンスとは、さまざまなデータ型とそのストレージニーズを満たすために、異なるデータストレージやデータストア技術を選択することを指す用語です。 基本的に、ポリグロットな永続化は、1 つのアプリケーションで、中核となるデータベースやストレージのテクノロジを複数使用できるという概念です。
重要
データ管理ランディング ゾーンは、適切なガバナンスを持つ管理グループの下に、独立したサブスクリプションとしてデプロイする必要があります。 その後、組織全体にわたるガバナンスを制御できます。 Azure ランディング ゾーン アクセラレータでは、Azure ランディング ゾーンにどのように取り組む必要があるかが示されています。
データ ガバナンス
Cloud Scale Analytics では、Microsoft Purview の使用が提案されています。 または、Microsoft Partner ソリューションをデプロイして、特定のデータ ガバナンス機能を管理することもできます。 アーキテクチャで考慮すべき主な機能には、グローバル データ カタログ、マスター データ管理、データ共有とコントラクト、API カタログ、データ品質管理、データ モデリング リポジトリなどがあります。
サブスクリプションへのデプロイを必要とする Microsoft パートナー データ ガバナンス製品は、データ管理ランディング ゾーン内のデータ ガバナンス リソース グループにデプロイする必要があります。
データ カタログ
データ カタログでは、データ情報を一元的に登録して管理し、それを組織で使用できるようにします。 これによって企業では、異なるプロジェクト チームによる冗長なデータ インジェストによって発生する、重複したデータ製品が確実に回避されます。 データ ランディング ゾーン全体に格納されているデータ製品のメタデータを定義するデータ カタログ サービスを作成することをお勧めします。
クラウド規模の分析では、Microsoft Purview を使用して、エンタープライズ データ ソースの登録、分類、データ品質の確保、セキュリティで保護されたセルフサービス アクセスの提供を行います。
Microsoft Purview はテナント ベースのサービスであり、データ ランディング ゾーンのリージョンにデプロイされたマネージド仮想ネットワークを作成することで、各データ ランディング ゾーンと通信できます。 Microsoft Purview のマネージド仮想ネットワーク内で、利用可能な任意の Microsoft Purview リージョンに Azure Managed Virtual Network Integration Runtime (IR) をデプロイできます。 そこから、マネージド仮想ネットワーク IR はプライベート エンドポイントを使用して、サポートされているデータ ソースに安全に接続し、スキャンできます。 詳細については、Microsoft Purview アカウントでマネージド仮想ネットワークを使用する方法に関する記事を参照してください。 マネージド仮想ネットワーク内にマネージド仮想ネットワーク IR を作成することで、データ統合プロセスの分離と安全を確保できます。
Azure Databricks を使用する場合は、Microsoft Purview に加えて Azure Databricks Unity カタログ
Note
このドキュメントでは、主にガバナンスのための Microsoft Purview の使用に焦点を当てていますが、企業によっては Alation、Okera、Collibra などの他の製品に投資している可能性があります。 これらのソリューションはサブスクリプション ベースであり、データ管理ランディング ゾーンにデプロイすることをお勧めします。 何らかのカスタム統合が必要になる可能性があることにご注意ください。
マスター データの管理
マスター データ管理コントロールは、データ管理ランディング ゾーン内に置かれています。 データ メッシュでのマスター データ管理には、データ メッシュに関して特に注意する必要のある具体的な考慮事項が含まれています。
多くのマスター データ管理ソリューションは、Microsoft Entra ID と完全に統合されます。 この統合により、データをセキュリティで保護し、さまざまなユーザー グループに異なるビューを提供できます。
詳細については、マスター データ管理システムに関するページを参照してください。
データの共有とコントラクト
クラウド規模の分析では、Microsoft Entra エンタイトルメント管理または Microsoft Purview ポリシーを使用して、データ共有へのアクセスを制御します。 それでもなお、共有とコントラクトのリポジトリが必要になる場合があります。 このリポジトリは組織の機能であり、データ管理ランディング ゾーン内に配置する必要があります。
コントラクトでは、データの検証、モデル、セキュリティ ポリシーに関する情報を提供する必要があります。
詳細については、「データ コントラクトの」を参照してください。
API カタログ
データ アプリケーション チームは、データ アプリケーション用のさまざまな API を作成します。 これらの API を組織全体にわたって検出するのは困難な場合があります。 データ管理ランディング ゾーンに API カタログを配置すると、この問題を解決できます。
API カタログは、ドキュメントを標準化するのに役立てることができ、API に関する内部コラボレーションの場所が提供されることになります。 また、組織全体にわたって消費、発行、ガバナンスの制御を促進することもできます。
データ品質の管理
現在のソリューションを使い続けます。
データ ソースにできるだけ近いデータ品質を管理して、品質の問題が分析および AI システム全体に分散しないようにします。 品質メトリックと検証をデータ プロセスに統合することで、データに最も精通しているチームと品質管理を調整し、データ資産をより深く理解し、より適切に処理できるようにします。
データ系列は、データ品質の信頼度も提供するため、すべてのデータ製品に提供する必要があります。
データ品質の管理の詳細については、「データ品質」を参照してください。
データ モデリング リポジトリ
データ管理ランディング ゾーン内の中央の場所にエンティティリレーションシップ モデルをキャプチャして格納し、概念図を見つけるための 1 つの場所をデータ コンシューマーに提供する必要があります。
多くのお客様は、ER Studio と OrbusInfinity を使用して、取り込み前にデータ製品をモデル化します。
サービス レイヤー
組織では、クラウド規模の分析機能を強化するために、多くのオートメーション サービスを作成することを決定する場合があります。 これらのオートメーション サービスは、分析の状態に関する適合性とオンボーディングのソリューションを動作させます。
これらのオートメーション サービスを構築する場合は、データ マーケットプレースと運用コンソールの両方として機能するユーザー インターフェイスが必要です。 このインターフェイスは、メタデータ標準などの基になるメタデータ ストアに依存する必要があります。
データ マーケットプレースまたは運用コンソールでは、オンボード、メタデータ登録、セキュリティ プロビジョニング、データ ライフサイクル、監視を容易にするために、中間層のマイクロサービスを呼び出します。
サービス レイヤーをリソース グループ プロビジョニングして、メタデータ ストアをホストできます。
重要
これらの自動化サービスはいずれも製品であり、ロードマップ項目を示していません。 これらが一覧で示されているのは、どの項目を自動化する必要があるかを検討するのに役立てるためです。
サービス | サービス スコープ |
---|---|
データ ランディング ゾーンのプロビジョニング | このサービスで、新しいデータ ランディング ゾーンを作成します。 使用率が高い可能性はほとんどありませんが、エンド ツー エンドのオンボーディング ソリューションの完全性のために含まれています。 詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください |
データ製品のオンボード | このサービスでは、オンボードされたテナントに関連するリソース グループの作成と修正を行います。 また、SKU のアップグレードとダウングレード、オンボードされたテナントまたはサービスのリソース グループのアクティブ化と非アクティブ化を行う機能も含まれています。 これにより、新しいデータ ランディング ゾーン DevOps が作成されます。 詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください |
データに依存しないインジェスト | このマイクロサービスは、各データ ランディング ゾーンの Azure Data Factory SQL Database メタストアと通信することで、データ ランディング ゾーンへのインジェスト用の新しいデータ ソースを作成します。 詳細については、Azure でのクラウド規模の分析が、自動インジェスト フレームワークでどのようにサポートされているかに関するページを参照してください |
Metadata | このサービスは、プラットフォームのメタデータを公開して作成します。 詳細については、「メタデータ標準」を参照してください |
アクセスのプロビジョニング | このサービスは、SPN/UPN を使用して、アクセス パッケージ、アクセス ポリシー、資産アクセス承認プロセス (手動または自動) を作成します。 また、過去 90 日間にユーザーが送信したサブスクリプション要求 (資産) の一覧を提供する API を公開することもできます。 詳細については、データ アクセス管理に関するページを参照してください |
データのライフサイクル | このサービスは、メタデータに基づいてデータのライフサイクルを管理する役割を担います。 このメンテナンスには、コールド ストレージへのデータの移動や、保持する必要がなくなったレコードの削除が含まれます。 詳細については、「データ ライフサイクル管理」を参照してください |
データ ドメインのオンボード | データ メッシュにのみ適用されます。 このサービスでは、新しいドメインに関連するメタデータをキャプチャし、必要に応じて新しいドメインをオンボードします。 マイクロサービスに組み込む可能性のあるドメインまたはサービス ラインを、作成、更新、アクティブ化、非アクティブ化することもできます。 詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください |
Azure Container Registry
Azure Container Registry は、データ管理ランディング ゾーンによってホストされます。 Azure Container Registry を使用すると、データ プラットフォーム操作で、データ アプリケーション チームが使用する標準コンテナーを、データ サイエンス プロジェクトで使用するためにデプロイできます。