データ管理用着陸ゾーン

[アーティクル]
2024-12-18

データ管理ランディングゾーンは、クラウド規模の分析の中心となる管理機能です。これは分析プラットフォームのガバナンスを担当します。

データ管理ランディングゾーンは、Azure ランディングゾーンの同一の標準サービスを備えた別個のサブスクリプションです。これにより、クローラーを介してデータのデータガバナンスを行うことができます。クローラーは、データランディングゾーン内のデータレイクとポリグロットストレージに接続します。データ管理ランディングゾーンは、仮想ネットワークピアリングによって、データランディングゾーンと接続サブスクリプションに接続されます。

このアーキテクチャは出発点であり、データ管理ランディングゾーンの実装を計画するときに、特定のビジネス要件と技術要件に合わせて変更できます。

Note

Polyglot パーシステンスとは、さまざまなデータ型とそのストレージニーズを満たすために、異なるデータストレージやデータストア技術を選択することを指す用語です。基本的に、ポリグロットな永続化は、1 つのアプリケーションで、中核となるデータベースやストレージのテクノロジを複数使用できるという概念です。

重要

データ管理ランディングゾーンは、適切なガバナンスを持つ管理グループの下に、独立したサブスクリプションとしてデプロイする必要があります。その後、組織全体にわたるガバナンスを制御できます。 Azure ランディングゾーンアクセラレータでは、Azure ランディングゾーンにどのように取り組む必要があるかが示されています。

データガバナンス

Cloud Scale Analytics では、Microsoft Purview の使用が提案されています。または、Microsoft Partner ソリューションをデプロイして、特定のデータガバナンス機能を管理することもできます。アーキテクチャで考慮すべき主な機能には、グローバルデータカタログ、マスターデータ管理、データ共有とコントラクト、API カタログ、データ品質管理、データモデリングリポジトリなどがあります。

サブスクリプションへのデプロイを必要とする Microsoft パートナーデータガバナンス製品は、データ管理ランディングゾーン内のデータガバナンスリソースグループにデプロイする必要があります。

データカタログ

データカタログでは、データ情報を一元的に登録して管理し、それを組織で使用できるようにします。これによって企業では、異なるプロジェクトチームによる冗長なデータインジェストによって発生する、重複したデータ製品が確実に回避されます。データランディングゾーン全体に格納されているデータ製品のメタデータを定義するデータカタログサービスを作成することをお勧めします。

クラウド規模の分析では、Microsoft Purview を使用して、エンタープライズデータソースの登録、分類、データ品質の確保、セキュリティで保護されたセルフサービスアクセスの提供を行います。

Microsoft Purview はテナントベースのサービスであり、データランディングゾーンのリージョンにデプロイされたマネージド仮想ネットワークを作成することで、各データランディングゾーンと通信できます。 Microsoft Purview のマネージド仮想ネットワーク内で、利用可能な任意の Microsoft Purview リージョンに Azure Managed Virtual Network Integration Runtime (IR) をデプロイできます。そこから、マネージド仮想ネットワーク IR はプライベートエンドポイントを使用して、サポートされているデータソースに安全に接続し、スキャンできます。詳細については、Microsoft Purview アカウントでマネージド仮想ネットワークを使用する方法に関する記事を参照してください。マネージド仮想ネットワーク内にマネージド仮想ネットワーク IR を作成することで、データ統合プロセスの分離と安全を確保できます。

Azure Databricks を使用する場合は、Microsoft Purview に加えて Azure Databricks Unity カタログ使用することをお勧めします。 Azure Databricks Unity カタログは、Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、およびデータ検出機能を提供します。 Unity カタログの設定に関するベストプラクティスについては、Unity カタログのベストプラクティスを参照してください。

Note

このドキュメントでは、主にガバナンスのための Microsoft Purview の使用に焦点を当てていますが、企業によっては Alation、Okera、Collibra などの他の製品に投資している可能性があります。これらのソリューションはサブスクリプションベースであり、データ管理ランディングゾーンにデプロイすることをお勧めします。何らかのカスタム統合が必要になる可能性があることにご注意ください。

マスターデータの管理

マスターデータ管理コントロールは、データ管理ランディングゾーン内に置かれています。データメッシュでのマスターデータ管理には、データメッシュに関して特に注意する必要のある具体的な考慮事項が含まれています。

多くのマスターデータ管理ソリューションは、Microsoft Entra ID と完全に統合されます。この統合により、データをセキュリティで保護し、さまざまなユーザーグループに異なるビューを提供できます。

詳細については、マスターデータ管理システムに関するページを参照してください。

クラウド規模の分析では、Microsoft Entra エンタイトルメント管理または Microsoft Purview ポリシーを使用して、データ共有へのアクセスを制御します。それでもなお、共有とコントラクトのリポジトリが必要になる場合があります。このリポジトリは組織の機能であり、データ管理ランディングゾーン内に配置する必要があります。

コントラクトでは、データの検証、モデル、セキュリティポリシーに関する情報を提供する必要があります。

詳細については、「データコントラクトの」を参照してください。

API カタログ

データアプリケーションチームは、データアプリケーション用のさまざまな API を作成します。これらの API を組織全体にわたって検出するのは困難な場合があります。データ管理ランディングゾーンに API カタログを配置すると、この問題を解決できます。

API カタログは、ドキュメントを標準化するのに役立てることができ、API に関する内部コラボレーションの場所が提供されることになります。また、組織全体にわたって消費、発行、ガバナンスの制御を促進することもできます。

データ品質の管理

現在のソリューションを使い続けます。

データソースにできるだけ近いデータ品質を管理して、品質の問題が分析および AI システム全体に分散しないようにします。品質メトリックと検証をデータプロセスに統合することで、データに最も精通しているチームと品質管理を調整し、データ資産をより深く理解し、より適切に処理できるようにします。

データ系列は、データ品質の信頼度も提供するため、すべてのデータ製品に提供する必要があります。

データ品質の管理の詳細については、「データ品質」を参照してください。

データモデリングリポジトリ

データ管理ランディングゾーン内の中央の場所にエンティティリレーションシップモデルをキャプチャして格納し、概念図を見つけるための 1 つの場所をデータコンシューマーに提供する必要があります。

多くのお客様は、ER Studio と OrbusInfinity を使用して、取り込み前にデータ製品をモデル化します。

サービスレイヤー

組織では、クラウド規模の分析機能を強化するために、多くのオートメーションサービスを作成することを決定する場合があります。これらのオートメーションサービスは、分析の状態に関する適合性とオンボーディングのソリューションを動作させます。

これらのオートメーションサービスを構築する場合は、データマーケットプレースと運用コンソールの両方として機能するユーザーインターフェイスが必要です。このインターフェイスは、メタデータ標準などの基になるメタデータストアに依存する必要があります。

データマーケットプレースまたは運用コンソールでは、オンボード、メタデータ登録、セキュリティプロビジョニング、データライフサイクル、監視を容易にするために、中間層のマイクロサービスを呼び出します。

サービスレイヤーをリソースグループ プロビジョニングして、メタデータストアをホストできます。

重要

これらの自動化サービスはいずれも製品であり、ロードマップ項目を示していません。これらが一覧で示されているのは、どの項目を自動化する必要があるかを検討するのに役立てるためです。

サービス	サービススコープ
データランディングゾーンのプロビジョニング	このサービスで、新しいデータランディングゾーンを作成します。使用率が高い可能性はほとんどありませんが、エンドツーエンドのオンボーディングソリューションの完全性のために含まれています。詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください
データ製品のオンボード	このサービスでは、オンボードされたテナントに関連するリソースグループの作成と修正を行います。また、SKU のアップグレードとダウングレード、オンボードされたテナントまたはサービスのリソースグループのアクティブ化と非アクティブ化を行う機能も含まれています。これにより、新しいデータランディングゾーン DevOps が作成されます。詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください
データに依存しないインジェスト	このマイクロサービスは、各データランディングゾーンの Azure Data Factory SQL Database メタストアと通信することで、データランディングゾーンへのインジェスト用の新しいデータソースを作成します。詳細については、Azure でのクラウド規模の分析が、自動インジェストフレームワークでどのようにサポートされているかに関するページを参照してください
Metadata	このサービスは、プラットフォームのメタデータを公開して作成します。詳細については、「メタデータ標準」を参照してください
アクセスのプロビジョニング	このサービスは、SPN/UPN を使用して、アクセスパッケージ、アクセスポリシー、資産アクセス承認プロセス (手動または自動) を作成します。また、過去 90 日間にユーザーが送信したサブスクリプション要求 (資産) の一覧を提供する API を公開することもできます。詳細については、データアクセス管理に関するページを参照してください
データのライフサイクル	このサービスは、メタデータに基づいてデータのライフサイクルを管理する役割を担います。このメンテナンスには、コールドストレージへのデータの移動や、保持する必要がなくなったレコードの削除が含まれます。詳細については、「データライフサイクル管理」を参照してください
データドメインのオンボード	データメッシュにのみ適用されます。このサービスでは、新しいドメインに関連するメタデータをキャプチャし、必要に応じて新しいドメインをオンボードします。マイクロサービスに組み込む可能性のあるドメインまたはサービスラインを、作成、更新、アクティブ化、非アクティブ化することもできます。詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください

Azure Container Registry

Azure Container Registry は、データ管理ランディングゾーンによってホストされます。 Azure Container Registry を使用すると、データプラットフォーム操作で、データアプリケーションチームが使用する標準コンテナーを、データサイエンスプロジェクトで使用するためにデプロイできます。

次の手順

データランディングゾーンの概要

次の方法で共有

データ管理用着陸ゾーン

データ ガバナンス

データ カタログ

マスター データの管理

データの共有とコントラクト

API カタログ

データ品質の管理

データ モデリング リポジトリ

サービス レイヤー