データ ガバナンスのサンプル セットアップ
Microsoft Purview データ ガバナンスは、Microsoft Purview 統合カタログとMicrosoft Purview データ マップを備え、包括的な可視性、データの信頼、責任あるイノベーションを提供し、組織が AI 時代のビジネス価値を高めるのに役立ちます。 正常性データの管理の例を使用して、この記事の手順に従って、統合カタログを設定し、その機能を使用して、organizationの健全なデータ ガバナンス プラクティスを構築する方法を理解するのに役立ちます。
手順 1: 統合カタログでガバナンス ドメインを設定する
ガバナンス ドメインは、データの説明責任を確立するための鍵であり、会社全体でそのデータのガバナンスを統合するのに役立ちます。 ガバナンス ドメインを作成すると、適切な所有者から始めて、データ資産内のすべてのデータについて専門家を効果的に特定して共同作業できるようになります。 ガバナンス ドメインは、そのデータを管理するチームのデータ境界の種類に合わせてさまざまな種類にすることができます。 たとえば、機能ドメイン (財務、人事、販売)、データ ドメイン (製品、顧客、正常性) などです。
前提条件
アクセス許可を付与し、最初のガバナンス ドメインを構築する
Microsoft Purview ポータルを開きます。
ロール管理ロール (Purview 管理者など) が割り当てられている管理者アカウントの資格情報を使用して、Microsoft Purview ポータルにサインインします。 [ 設定] > [ロールとスコープ] に移動して、表示および管理します。
[ ロール グループ] を選択します。
[ Microsoft Purview ソリューションの役割グループ ] ページで、[ データ ガバナンス ] 役割グループを選択します。
[役割グループのメンバーの編集] ページで、[ユーザーの選択] または [グループの選択] を選択します。
役割グループに追加するすべてのユーザーまたはグループの [チェック] ボックスを選択します。
[ 選択] を選択します。
統合カタログで、[カタログ管理] を選択し、[ガバナンス ドメイン] を選択します。
[ ガバナンス ドメイン ] ページでは、カタログの残りの部分を設定して、他のユーザーがデータの所有権をフェデレーションし、チームが知識を構築し、データのビジネス価値を確立できるようにします。
- まず、[ 新しいガバナンス ドメイン] を選択します。
- ガバナンス ドメインの名前を更新することはできますが、このために"(チュートリアル) Personal Health" という名前を付け、"個人の健康データとは、医療部門内で収集および使用される個人の身体または精神的健康に関連する情報を指します" という説明を提供します。 これには、医療記録、治療履歴、診断画像、検査結果など、さまざまなデータ型が含まれます。 プライバシーと機密性を確保するために、多くの場合、さまざまな法律や規制の下で保護されています。
- 型を "データ ドメイン" として選択します。
- 親は空白のままにします (これがカタログ内の最初のガバナンス ドメインの場合、ここで選択するものはありません)
- [作成] を選択します
- ここで、自分でさらに 2 つのドメインを作成します。 これらは、独自のorganizationでのコラボレーションとガバナンスのフェデレーションの重要なポイントになるため、Microsoft Purview 統合カタログを実装するときに、ドメインの所有者になる可能性があるユーザーについて考えます。
- 次の例に従うことができます。
- 企業機能ドメインは、会社全体が使用する高度に制御された資産と用語を表します。
- Sales は、ほとんどの組織が企業の子ドメインである機能ドメインです。
- まず、[ 新しいガバナンス ドメイン] を選択します。
作成されたガバナンス ドメインを選択します。
ガバナンス ドメインの [ ロール ] タブを選択します。
既定では、ガバナンス ドメインを作成すると、ガバナンス ドメイン内のすべてのロールに追加されます。 ガバナンス ドメイン所有者として、データ スチュワード (ドメインのビジネス エキスパート) とデータ製品の所有者 (他のユーザーが使用するのに最適なデータ資産を把握しているユーザー) を追加します。
[ 詳細 ] タブに戻ります。
[ ポリシーの管理 ] ボタンを選択して、ドメイン レベルのポリシーを適用します。 このポリシーはドメイン内のすべてのデータ製品に適用され、ポリシーの自動適用を有効にすると、データの専門家もポリシーの専門家である必要はありません。
[ アクセス ポリシーの管理 ] タブで、[ データ コピーを許可 する] の横にあるチェック ボックスをオンにします。このポリシー オプションを選択すると、データ製品へのアクセスを要求するすべてのユーザーがデータのデータ コピー ポリシーを理解していることを証明する構成証明が自動的に適用されます。
[ 変更の保存] を 選択して、ポリシーがガバナンス ドメインによって設定されていることを確認します。
ガバナンス ドメインで [発行] を選択します。 [ 発行] ボタンは、ドメイン内の他のすべての概念を発行します。
用語集の用語を作成する
ガバナンス ドメインに用語集の用語を追加すると、他のユーザーはビジネスがどのように使用され、データを理解しているかを理解しやすくなります。 用語集の用語では、分析情報で共通の用語が使用され、一般にガバナンス ドメイン全体の知識が確実に使用されます。
ガバナンス ドメインのページで、用語集の用語カードを見つけて、[すべて表示] を選択します。
[ 用語集の用語 ] ページで、[ 新しい用語] を選択します。
詳細を入力します。
- 名前: 'アウトブレイク'
- 説明: 集団の大部分に影響を与えたり、影響を受ける可能性がある疾患。
- 残りの部分は今のところ空白のままにできますが、収集するフィールドがあります。会社の用語を定義する用語所有者、用語の名前とも呼ばれる共通の共有頭字語、最後に、用語に関するさらに詳細な情報を持つリソースへのリンクを提供できます。
[作成] を選択します
[ ポリシーの管理] ボタンを 選択します。 ドメイン レベルのポリシーと同様に、用語が使用中の場所であればどこでも適用される用語レベルのポリシーを作成できます。
[マネージャーの承認が 必要] の横にあるチェック ボックスをオンにします。 これにより、データ製品へのアクセスが要求されたときに、Microsoft Entra IDに一覧表示されたユーザーからセカンダリ承認が適用されます。
[ 発行] を選択して、作成されたアウトブレイク用語を選択します。 公開された用語は、統合カタログでフィルター処理され、その用語を使用してデータ製品を記述する他のユーザーが、データ製品の閲覧中に統合カタログでその説明を確認できるようになります。
次に、さらに 2 つの用語を作成します。 今回は、作成した用語の親用語として [アウトブレイク] 用語を選択します。 いずれかの用語の関連タブでこれらの子用語間の関係を構築して、これらの用語がどのように連携するかのネットワークを構築して、トピック全体を説明してみてください。
- パンデミック: 複数の国または大陸にまたがる多数の人々に影響を与える病気の世界的な発生。
- 流行: 感染性が高く、人口の大部分に影響を与える疾患の国全体または地域的な発生。
前に作成した他のドメインで、他のいくつかの用語を作成してみてください。 追加する内容がわからない場合は、[ 提案された用語を取得 する] ボタンを試して、既に指定したドメインの説明と名前に基づいて GenAI にいくつか提案してもらうようお試しください。
OKR を追加する
次に、Personal Health ドメインの OKR (目標と重要な結果) を追加して、他のユーザーがデータのビジネス価値を理解できるようにします。 これにより、データとそれが提供するビジネス価値との間に直接接続が構築されます。
ガバナンス ドメイン ページから [OKR ] ボックスを選択します。
[ 新しい OKR] を選択します。
最初に目的の詳細を入力します。
- 目的:効果的な患者ワクチンの取り込みを可能にすることでパンデミックリスクを軽減する。
- 所有者: 自分の名前を入力します
- 対象日: '2024-12-31'
[作成] を選択します
目標に重要な結果を追加すると、目標が測定可能になり、目標に向けた進行状況が監視されます。 [ + キーの結果の追加] を選択します。
キーの結果の詳細を入力します。
- 主な結果:パンデミックの影響を受ける可能性が最も高い80%の年齢グループ(>65歳)が、2024年末までに完全ワクチン接種を受けられるようにします。
- 進行状況: 追跡中
- 進行状況: 70
- 目標金額: 80
- 最大金額: 100
[作成] を選択します。
[発行] を選択します。
重要なデータ要素を作成する
最後に、Personal Health で重要なデータ要素 (CDE) を作成して、データの最も重要な列が一貫した定義、理解を持ち、データの形成と格納方法に対するビジネス上の期待を常に満たしていることを確認します。
- [Personal Health ドメイン] が選択されている [ガバナンス ドメイン] ページで、[ 重要なデータ要素 ] ボックスを選択します。
- [ 新しい重要なデータ要素] を選択します。
- 基本的な CDE メタデータを入力します。
- 名前: 年齢グループ
- 説明: 必要な分析レポートが参照に従っていることを確認するために使用される人物の年齢の一般的なグループ化は、他のユーザーが個々の年齢に依存し、データの匿名性を向上させるために削除できる参照に従います。 年齢グループは8つのグループに分けられます。 <2年、2-4年、5-11年、12-17年、18-24年、25-49年、50-64年、65年以上。
- 所有者: 自分の名前を入力します
- 予期されるデータ型: テキスト
- [作成] を選択します
CDE の真のパワーは、このデータが格納されている物理データ列に直接マップすることです。 この接続により、共通の理解が確保され、大規模なデータ品質ルールとポリシーの評価が可能になります。
作成した CDE から、[ + 列の追加] を選択します。
Data Lake のゴールド コンテナーから Covid 19 ワクチンとケーストレンド のデータ資産を検索します
Covid 19 のワクチンとケースの傾向資産の名前ではなく、ボックスを選択します。
ヒント
資産の青い名前を選択すると、Microsoft Purview で新しいウィンドウが開き、資産の詳細が表示されます。
AgeGroupVacc 列の横にあるラジオ ボタンを選択します。
[追加] を選択します。
作成した CDE の上部にある [ データ品質 ] タブを選択して、CDE にデータ品質ルールを適用します。 用語集の用語とガバナンス ドメインのポリシーを追加する方法と似ています。
[新しいルール] を選択します
[データ型の一致] を選択します
「ルール名:年齢グループの書式設定を確認する」と入力します
[作成] を選択します
CDE で [発行] を選択します
この CDE は、Covid 19 ワクチンとケーストレンド資産を使用するすべてのデータ製品にデータ品質ルールを自動的に適用します。これについては、次のセクションで説明します。
- 他のドメインで他の 2 つの CDEs を作成してみてください。 いくつかのアイデアを次に示します。
- 売上: 収益と販売者名
- 会社: 製品 ID
手順 2: データ マップにデータを設定して登録する
スキャンに使用できるデータ ソースがない場合は、次の手順に従って、Azure Data Lake Storage (ADLS Gen2) の例を完全にデプロイできます。
ヒント
Microsoft Purview アカウントと同じテナントに既にデータ ソースがある場合は、このセクションの次の部分に進んで資産をスキャンします。
実際のデータ資産では、さまざまなデータ アプリケーションでさまざまなシステムが使用されています。 Fabric や Snowflake などのレポート環境では、チームがデータのコピーを使用して分析ソリューションを構築し、レポートとダッシュボードを強化します。 アプリケーション チームまたは顧客が、プロセス中に行われた決定に基づいてデータを収集または追加するビジネス プロセスを完了するために使用する運用データ システムがあります。
より現実的なデータ資産を作成するには、カタログ内の多くのデータ ソースを表示することをお勧めします。これは、会社が持つ可能性があるさまざまなデータ使用の幅をカバーできます。 ユース ケースを強化するために必要なデータの種類は、レポートやダッシュボードを必要とするビジネス ユーザーと大きく異なる場合があります。アナリストは、レポートを構築するために準拠したディメンションと事実を必要とし、データ サイエンティストまたはデータ エンジニアは、これらのデータをすべて収集するシステムから直接取得された生のソース データを必要とし、より多くのユーザーが検索の重要性を確認できるようにする必要があります。 同じ場所のデータを理解し、アクセスする。
資産にデータを追加するその他のチュートリアルについては、次のガイドに従ってください。
- Fabric Lakehouse チュートリアル - レポート環境の基盤を提供します
- Azure SQL データベース (サンプル) – 運用データ ストアの適切に構造化された例を提供します
前提条件
- Azure のサブスクリプション: Azure 無料アカウントを今すぐ作成する
- テナントのMicrosoft Entra ID: Microsoft Entra ID ガバナンス
- Microsoft Purview アカウント
- 管理 Microsoft Purview アカウントにアクセスできます (これは、Microsoft Purview アカウントを作成した場合の既定値です。新しい Microsoft Purview ポータル プレビューでのアクセス許可 |Microsoft Learn)
- すべてのリソース。Microsoft Purview、データ ソース、Microsoft Entra IDは、同じクラウド テナントに存在する必要があります。
データ資産を設定する
A. ストレージ アカウントを作成して設定する
- このガイドに従ってストレージ アカウントを作成する: Azure Data Lake Storage Gen2用のストレージ アカウントを作成する
- 新しいデータ レイクのコンテナーを作成します。
- ストレージ アカウントの [概要] ページに移動します。
- [データ ストレージ] セクションの [ コンテナー ] タブを選択します。
- [ + コンテナー ] ボタンを選択します
- "bronze" と名前を付け、[ 作成 ] ボタンを選択します
- 次の手順を繰り返して、'gold' コンテナーを作成します
- data.gov から CSV データの例をダウンロードする: Covid-19 ワクチン接種とケースの傾向 :年齢グループ別、米国
- 作成したストレージ アカウントの "bronze" という名前のコンテナーに CSV をアップロードします。
- "bronze" という名前のコンテナーを選択し、[ アップロード ] ボタンを選択します。
- CSV を保存した場所を参照し、 Covid-19_Vaccination_Case _Trends ファイルを選択します。
- [アップロード] を選択します。
B. Azure Data Factoryを作成する
この手順では、メダリオン データ レイクのレイヤー間でデータがどのように移動されるかを示し、データがコンシューマーが使用すると予想される標準化された形式であることを確認します。これは、データ品質を実行するための前提条件の手順です。
このガイドに従ってAzure Data Factoryを作成する: Azure Data Factoryを作成する
このAzure Data Factory ガイドを使用して、"ブロンズ" コンテナーの CSV から "gold" コンテナーに Delta 形式のテーブルにデータをコピーする: マッピング データ フローを使用してデータを変換する
作成された ADF リソースの [概要] タブの [Studio の起動] ボタンを選択して、Azure portalから Azure Data Factory (ADF) エクスペリエンスを開きます。
ADF Studio の [ 作成者 ] タブを選択します。
[ + ] ボタンを選択し、ドロップダウン メニューから [ データ フロー ] を選択します。
データフローに "CSVtoDeltaC19VaxTrends" という名前を付けます。
空のボックスで [ ソースの追加] を選択します。
[ソース設定] を に設定します。
- 出力ストリーム名: 'C19csv'
- 説明: 空白のままにします
- ソースの種類: インライン
- インライン データセットの種類: 区切りテキスト
- リンクされたサービス: csv を保存したデータ レイクを選択します
[ソース オプション] を 次のように設定します。
- ファイル モード: ファイル
- ファイル パス: /bronze/ Covid-19_Vaccination_Case _Trends
- ファイルが見つからない場合: オフのままにします
- データ キャプチャを変更する: オフのままにします
- 圧縮の種類: なし
- エンコード: Default(UTF-8)
- 列区切り記号: コンマ (,)
- 行区切り記号: Default(\r、\n、または\r\n)
- 見積もり文字: 二重引用符 (")
- エスケープ文字: 円記号 ()
- ヘッダーとしての最初の行: CHECKED
- 残りは既定値のままにします
作成したソースの小さい + 次へ を選択し、[シンク] を選択 します
"ブロンズ" の csv から 'gold' のデルタ テーブルにデータを移動するために格納するデータの形式と場所を示すシンクを作成します。
- シンクの値を設定します (指定しない限り、すべての設定は既定値のままにします)
- シンクの種類: インライン
- インライン データセットの種類: Delta
- リンクされたサービス: 別のコンテナーに格納するため、ソースで使用されるのと同じデータ レイク。
[設定] の値を設定します (指定しない限り、すべての設定は既定値のままにします)
- フォルダー パス: gold/Covid19 ワクチンとケースの傾向
この名前は、データを格納する方法であり、選択する必要がないため、値を入力する必要があります。
[ 検証] を選択すると、データ フローがチェックされ、エラーを修正するための手順が提供されます。
[ すべて発行] を選択します。
[ + ] ボタンを選択し、ドロップダウン メニューから [パイプライン] を選択します
パイプラインに "CSV to Delta C19 Vax Trends" という名前を付けます
前の手順 CSV で作成したデータフローを Delta (C19VaxTrends) に選択し、開いているパイプライン タブにドラッグ アンド ドロップします。
[検証] を選択します
[ 発行] を選択します
[ デバッグ ] (アクティビティ ランタイムを使用) を選択してパイプラインを実行します。
ヒント
スペースのエラーやデルタ形式の不適切な文字にヒットした場合: ダウンロードした CSV を開き、修正を行います。 次に、ブロンズ ゾーンの CSV を再アップロードして上書きします。 次に、パイプラインを再実行します。
データ レイク内のゴールド コンテナーに移動すると、パイプライン中に作成された新しい Delta テーブルが表示されます。
資産をスキャンする
Microsoft Purview データ マップにデータ資産をスキャンしていない場合は、次の手順に従ってデータ マップを設定できます。
データ資産内のソースをスキャンすると、それらのソース内のデータ資産 (テーブル、ファイル、フォルダー、レポートなど) のメタデータが自動的に収集されます。 データ ソースを登録し、スキャンを作成することで、カタログに表示されるソースと資産に対する技術的所有権を確立し、Microsoft Purview でどのメタデータにアクセスできるかを制御できるようにします。 ソースと資産をドメイン レベルで登録して格納することで、最高レベルのアクセス階層に格納されます。 通常、資産メタデータをスキャンし、そのデータの適切なアクセス階層を確立するコレクションをいくつか作成することをお勧めします。
-
Microsoft Purview マネージド ID (MSI) の閲覧者アクセス権をデータ レイクまたは他のデータ ストアに提供します。
ヒント
MSI は、Microsoft Purview インスタンスのアカウント名です。
Microsoft Fabric または SQL の使用を選択した場合は、次のガイドを使用してアクセスを提供できます。
データ レイクを登録して資産をスキャンする
[ドメイン] タブの [Microsoft Purview データ マップ] で、ドメインのロールの割り当てを選択します (これは Microsoft Purview アカウントの名前になります)。
- 自分をデータ ソース管理者として追加し、データ キュレーターをドメインに追加します。
- ロール [ データ ソース管理者] の横にあるユーザー アイコンを選択します。
- Microsoft Entra ID内にある名前を検索します (Microsoft Entra IDにあるとおりに完全な名前を入力する必要がある場合があります)。
- [OK] を選択します。
- データ キュレーターに対してこれらの手順を繰り返します。
- 自分をデータ ソース管理者として追加し、データ キュレーターをドメインに追加します。
データ レイクを登録します。
- [ データ ソース ] タブを選択します。
- [登録] を選択します。
- Azure Data Lake Storage Gen2ストレージの種類を選択します。
接続する詳細を指定します。
- サブスクリプション (省略可能)
- データ ソース名 (これは ADLS Gen2 ソースの名前になります)
- 資産メタデータを格納する必要があるコレクション (省略可能)
- [ 登録] を選択します
データ ソースの登録が完了したら、スキャンを構成できます。 登録は、Microsoft Purview がデータ ソースに接続され、所有権の正しいコレクションに配置されていることを意味します。 スキャンすると、ソースからメタデータが読み取られ、データ マップ内の資産が設定されます。
[データ ソース] タブで登録したソースを選択します
新しいスキャンを選択し、詳細を指定します。
- このスキャンに既定の統合ランタイムを使用する
- 資格情報は Microsoft Purview MSI (システム) である必要があります
- スキャン レベルは自動検出です
- コレクションを選択するか、ドメインを使用します (コレクションは、データ ソースが登録されたのと同じコレクションまたは子コレクションである必要があります)
- [続行] を選択します
ヒント
この時点で、Microsoft Purview は接続をテストして、スキャンを実行できることを検証します。 データ ソースに対する Microsoft Purview MSI リーダー アクセス権を付与していない場合、失敗します。 データ ソースの所有者ではない場合、またはユーザー アクセス共同作成者がいる場合、接続を作成するための承認が必要になるため、スキャンは失敗します。
ここで、チュートリアルの建物データ セクションにデルタ テーブルを配置したコンテナー 'gold' のみを選択します。 これにより、データ ストア内の他のデータ資産がスキャンされなくなります。
- ゴールドの横に青いチェックが 1 つしかない場合は、すべてのソースをスキャンし、使用するアセットを作成するため、すべての横にチェックを残すことができます。
- [ 続行] を選択します
[スキャン ルール セットの選択] 画面で、既定のスキャン ルール セットを使用する必要があります。
[ 続行] を選択します
[スキャン トリガーの設定] では、スキャンの頻度を設定して、引き続きレイクのゴールド コンテナーにデータ資産を追加すると、データ マップが設定されます。 [ 1 回] を選択します。
[続行] を選択します。
[ 保存して実行] を選択します。 これにより、データ レイクの gold コンテナーからのメタデータのみを読み取り、次のセクションのMicrosoft Purview 統合カタログで使用するテーブルを設定するスキャンが作成されます。 [保存] のみを選択した場合、スキャンは実行されず、アセットは表示されません。 スキャンが実行されると、作成したスキャンが [ 前回の実行 状態 ] の [キューに入っている] と表示されます。 スキャン読み取りが完了すると、資産は次のセクションの準備が整います。 ソースに含まれる資産の数によっては、数分または数時間かかる場合があります。
手順 3: データ製品を発行する
データ製品を作成することは、適切なデータがorganizationによって検出可能になるようにするために不可欠です。 データ製品は、使用または制限された値がないため、データ資産内の価値が低いデータや価値のないデータの管理を防ぐのに役立ちます。 データの専門家がデータ製品を公開しようとしていることを確認すると、最も価値のあるデータがアクティブ化され、その価値に基づいて適切なレベルのガバナンスが構築されます。 技術的なチームがビジネス目的を知らない資産をキュレーションしたり、複雑で成長しているデータ資産内のすべてのものを管理しようとすると、余分な時間が発生し、生産性が低下し、使用されない可能性があるデータの詳細を追跡したり、資産から削除したりする可能性があります。 代わりに、価値を持ち、さらに多くの価値を発見して構築する必要があるデータに焦点を当てます。 チームがより多くのデータを使用し、必要なものを理解したり、これらの要求を満たすためにより有用なデータ製品を作成したりできるため、ガバナンスはデータの価値と機密性に基づいて常に適切なサイズを維持するように適応できます。
前提条件
- 使用している ガバナンス ドメインのデータ製品所有者 である必要があります。
- データ マップにデータ資産が必要です。 そうでない場合は、 このチュートリアルのセクション 2 を参照して、いくつかを追加してください。
- データ製品を発行するには、ガバナンス ドメインを発行する必要があります。 お持ちでない場合は、 このチュートリアルのセクション 1 を参照して作成してください。
データ製品を作成して発行する
Microsoft Purview ポータルを開きます。
[統合カタログ] を選択します。
[ カタログ管理 ] を選択し、[ ガバナンス ドメイン] を選択します。
[ ガバナンス ドメイン ] ページで、Personal Health ドメインを選択します
[ビジネスの概念] で [データ製品に移動] リンクを選択します
ここでは、データ製品の所有者と呼ばれるデータの専門家が、organization内の他のユーザーが使用することを意図したデータ資産を特定し、それらを使用可能にするために必要な情報を提供します。
[新しいデータ製品] を選択します
データ製品に関する詳細を指定する
- 名前: 'Covid-19 ワクチン接種と年齢別のケーストレンド'
- 説明: "このデータは、米国保健省 & ヒューマン サービスの一部として CDC から取得されます。 このデータには、米国国内レベルのワクチン接種と症例の年齢別の傾向が含まれています。 データは少なくとも1回の用量で階層化され、完全にワクチン接種される。 また、データは、管轄パートナーのクリニック、小売薬局、介護施設、透析センター、連邦緊急管理局および医療資源サービス管理パートナーサイト、連邦法人施設を含むすべてのワクチンパートナーを表します。
- 型: データセット
- [次へ] を選択します。
- ユース ケース: "このデータは、一般に使用するために提供され、ワクチン接種の傾向と異なる年齢グループによる新しいケースを理解するのに役立ちます。 年齢は、 <2年から65年以上の範囲の2つのグループに分かれています。 同様に、傾向は、年齢グループ別の新しいケースの 7 日間の平均を提供する 1 日の数値で提供されます。
- [ 保証 済み] としてオンに設定します。
- [保存] を選択します。
これで、データ製品の基本メタデータが組み込まれています。次に、いくつかのプロパティを追加し、データ マップから資産をマップします。
[ + データ資産の追加] ボタンを 選択します。
スキャンした資産がデータ マップに表示されます。これには、データ ソースのすべてのフォルダーとレイヤーが含まれます。
データ レイクのゴールド コンテナーに追加した Covid19 ワクチンとケースの傾向 資産を検索し、このリソース セットを選択します。
[追加] を選択します。 1 つのデータ製品に必要な数だけ資産を選択できますが、ここで必要なものは 1 つだけです。
ヒント
[ 提案の取得 ] ボタンを試して、GenAI がデータ マップ内の資産から選択できるようにし、結果の一覧から Covid19 ワクチンとケースの傾向を選択します。
これで、データ製品に追加された資産が表示されます。
用語集の用語タイトルの横にある [ + 用語の追加] を選択します
先ほど作成したアウトブレイク用語を選択し、[追加] を選択します
現在、データ製品にマップされている資産の年齢グループの重要なデータ要素が表示されます。
OKR タイトルの横にある [ + OKR の追加] を選択します
効果的な患者ワクチンの取り込みを有効にして、パンデミックリスクを軽減するを選択します。 これは、 最初のセクションで作成した目的です。
データ製品のアクセス要求ポリシーを管理する
ページの上部にあるデータ製品を公開する前の最後の手順は、[ ポリシーの管理 ] ボタンを選択することです。 ここでは、アクセス ポリシーと要求アクセス ワークフローを構成するには、選択を行い、承認の名前を指定します。 [ 継承されたポリシー ] タブを使用して、前に適用したデータ コピー構成証明に適用されたガバナンス ドメイン ポリシーを確認することもできます。 アウトブレイク用語集の用語に由来する マネージャーの承認 が必要な場合も同じです。
[ ポリシーの管理 ] タブを選択します。
[ アクセス時間制限] で、更新が必要になるまでのアクセス要求が適切な期間の詳細を指定します。 これを設定して、最大 1 年間アクセス権を付与します。
ボックスに 1 を入れます。
ドロップダウンで年を選択します。
[承認要件] で、[承認者] ボックスに自分の名前を指定します。 (Microsoft Entra IDに登録されている名前が必要です)
注:
そのポリシーはアウトブレイク用語集の用語から継承されるため、マネージャーの承認をチェックする必要はありません。
[ プレビュー要求フォーム ] ボタンを選択して、アクセスを要求するときにカタログコンシューマーが表示する内容を確認します。 ガバナンス ドメインと用語集の用語によって設定されているため、必要なデータ コピー構成証明とマネージャーの承認が表示されます。
[変更の保存] を選択します。
データ資産をマップし、アクセス ポリシーを構成したら、データ製品をカタログに発行する準備が整います。
データ製品で [発行] を選択します。
前に作成した他のドメインで利益レポートを作成してみてください
- 利益レポート、種類: ダッシュボード/レポート。
- 製品マスター、種類: Maser データと参照データ。
注:
これらに多くの資産を追加し、多くの資産を持つデータ製品がどのように表示されるかを確認し、任意のドメインの用語にデータ製品を表示して、用語の一貫性のあるセットを使用して用語集を使用してデータを記述する方法を確認できます。
手順 4: データ品質を実行する
カタログでデータ製品を使用できるようになったので、データ品質ルールを実行すると、データの状態が良好であり、使用する準備ができていることがすべてのユーザーに通知されます。 データの詳細については、新しいデータ品質ルールを追加して、すべてのユース ケースに適していることを確認できます。 データ製品が最高品質であることを確認することは、データに対する信頼を構築し、改善されたデータが監視されていることを他のユーザーに伝えるのに役立ちます。 データの価値が高まるにつれて、データ品質の問題が管理が不十分な場合に大きな影響を与える可能性があるため、そのデータの品質をより厳密に監視および制御する必要があります。
前提条件
- データ品質ルールは、ADLS Gen2 と Microsoft Fabric の差分書式テーブルでのみ実行できます。
- Microsoft Purview のマネージド ID は、現在サポートされているデータ品質の唯一の資格情報であるため、データ ソースの読み取りを有効にする必要があります。
- データ品質を実行しているガバナンス ドメインには、 データ品質スチュワード ロール が必要です。
- データをスキャンするための適切なセキュリティ承認を確保するには、データ品質スキャンを接続しているデータ ソースへの所有者またはユーザー アクセス管理者アクセス権が必要です。
- データに対してプロファイルを実行するには、 データ プロファイル スチュワード ロール が必要です。
データ品質ルールを作成して実行する
Microsoft Purview ポータルを開きます。
[統合カタログ] を選択します。
[データ管理] の [ データ品質 ] タブ を選択します。
セクション 1 で作成した個人用正常性ドメインを選択します。
[管理] ボタンを選択し、メニューから [Connections] を選択します。 この接続を構築すると、そのガバナンス ドメイン内のデータ ソースでデータ品質スキャンを実行できるようになり、チームが適切な承認なしでデータの知識にアクセスできなくなります。
[接続] 画面で [ 新規 ] を選択して、新しい接続を作成します。
- [Personal Health ADLSg2 DQ] という表示名を指定します。
- Azure Data Lake Storage Gen2のソースの種類を選択します。
-
セクション 2 で作成したデータ ソースの詳細を指定します。
注:
データ品質接続の資格情報は Microsoft Purview MSI (システム) である必要があります
- [テスト接続] を選択します
- 接続がテストされたら、[送信] を選択 します
-
セクション 2 で作成したデータ ソースの詳細を指定します。
接続が確立されたら、プロファイルを実行し、データ品質ルールの構築を開始する準備が整います。 これにより、ビジネス ルールと適切なルールを把握している専門家が、最も重要なデータ製品で実行されるようになります。
- [データ品質] ページに戻るします。
- Personal Health ガバナンス ドメインを選択します。
- セクション 3 に組み込まれている Covid-19 ワクチン接種とケース トレンド別の年齢別データ製品を選択します。
- データ製品に追加された資産を選択します。 ( セクション 2 からの差分形式である必要があります。データ品質は実行されません)。
- データの列にデータ品質ルールを適用して、期待される品質を満たしているかどうかを測定します。
- 選択した資産の [ ルール ] タブを選択します。
- [ 新しいルール] を選択します。
- [空/空白フィールド ルール] を選択します。
- 詳細を指定します。
- [列] ドロップダウンから [AgeGroupVacc 列] を選択します
- 規則名: ワクチン接種年齢グループが存在することを確認する
- [作成] を選択します。
- [ 新しいルール] を選択します。
- [ データ型の一致] を選択します。
- 詳細を指定します。
- DateAdministered 列を選択します。
- [作成] を選択します。
- [ データ品質スキャンの実行] を選択します。
プロファイル データ
データのプロファイルを作成して、各列の高レベルの静的値を確認し、新しいルールを持つ可能性のある異常を検出します。
- 統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。
- プロファイル データの選択
- [ 列名 ] の横にある上部のボックスをオンにして、すべての列をプロファイリングします。 Microsoft Purview では、プロファイルする列を推奨し、プロファイリングの価値があるとわかっている列を選択して、機密性の高いデータまたはデータのプロファイルの入力が少なくなるのを防ぐことができます。
- [ プロファイルの実行] を選択します
スキャンが完了すると、新しいデータ製品のデータ品質スコアとプロファイルを確認でき、カタログのすべてのユーザーがデータの状態を確実に把握できるように、データ品質スコアを使用できるようになります。
データ品質スキャンのスケジュールを作成して、データ品質の問題を継続的に監視できるようにします。 コンシューマーが影響を受ける前にデータ品質の問題に対処するようにアラートを設定します。
- [ 正常性管理] で、[ データ品質] を選択します。
- データ品質規則を構成した Personal Health ドメインを選択します。
- [ 管理 ] ドロップダウン リストで、[ スケジュールされたスキャン] を選択します。
- [ スケジュールされたスキャン ] ページで、[新規] を選択 します。
-
概要の詳細を追加する
- 名前: Personal Health DQ 月次評価
- 説明: 継続的な改善のための DQ ルールの毎月のスキャン。
- [ 続行] を選択します
- スキャンのスコープを選択する
- Covid-19 ワクチン接種とケーストレンドの横にあるチェックボックスをオンにします(年齢別データ製品別)
- [ 続行] を選択します
- 毎月の最終日に実行されるようにスキャンをスケジュールする
- [ 定期的] を選択する
- 繰り返し: 1 か月ごとに
- 月の日数: 最後
- スキャン時刻のスケジュール (UTC): 12:00:00
- 繰り返しを開始する (UTC): 既定値のままにします
- [ 続行] を選択します
- スキャンの詳細を確認して、保存する前に変更を加えたいかどうかを確認します。
- [保存] を選択します。 以前に手動スキャンをトリガーしたので、別のスキャンをトリガーする必要はありませんが、新しいスキャンが必要な場合は、[ 保存して実行] を選択します。
アラートを構成する
データ品質がスキャンをスケジュールすると、データ品質の問題やスキャンエラーのために問題や注意が必要かどうかをスチュワードに知らせるためにトリガーできるアラートがあります。 失敗したスキャンのデータ品質アラートと、スコアが 5% を超える減少した場合のデータ品質アラートを構成します。
- [データ品質] ページの [Personal Health] ドメインに戻るします。
- [ 管理 ] ドロップダウン リストから [ アラート] を選択します。
- [新規]を選択します。
- アラートの詳細を入力する
- 表示名: 個人用正常性 DQ 月次スキャン
- 説明: DQ の最小しきい値がコンシューマーの期待を満たしていることを確認します。
- ターゲット: スコアが以下に減少する
- しきい値: 5
- 通知をオフにする: オフのままにします
- 失敗した品質スキャンの通知を有効にする: オンのままにする
- 受信者: 自分の名前を入力します
- [続行] を選択します。
ヒント
統合カタログで実装する場合は、問題をコンシューマーに通知し、データの技術所有者と協力して修正を行うことができるアラートをスチュワードに送信する必要があります。
このセクションの最後では、組織のデータコンシューマーに提供するデータを管理するために、運用データ品質に関する機能統合カタログが用意されています。 すべては、コンシューマーに最も価値のあるデータを取得し、使用するデータに対する信頼を構築することです。 データの価値が高くなり、新しいデータ戦略が出現するにつれて、次のセクションでは、カタログ全体を管理する方法や、マスター データを使用して特定のデータ管理をさらに深く行う方法を示すのに役立ちます。
手順 5: マスター データ管理
マスター データ管理は、このデータのエラーや問題がビジネス全体に影響を与える可能性があるため、正確で一意で、ビジネスのすべての領域で一貫して適用する必要がある最も重要なデータ エンティティに準拠する方法です。 MDM パートナーの 1 つを通じて、選択したマスター データ管理 (MDM) ソリューションを Microsoft Purview と統合して、ゴールデン レコードの作成とマスター データのデータ製品としての公開を可能にするデータの統合、標準化、クレンジングを可能にすることができます。
選択したソリューションについては、Microsoft Purview でのマスター データ管理に関するチュートリアルに従ってください。
手順 6: データ正常性を管理する
Microsoft Purview Data Estate Health では、中央データ オフィスやその他のデータ マネージャーは、会社の基準に照らしてデータの状態を評価し、戦略の進捗状況を効果的に管理できます。 会社の全員がデータの価値を高めるために何ができるかを確実に把握するためには、すべてのユーザーをデータ ガバナンスのエキスパートにする必要なく、標準を理解し、organization全体にスケーラブルにすることが不可欠です。 Microsoft Purview の標準のコントロール セットから始まり、各データ オフィスですぐに使用でき、期待に合わせてコントロールをカスタマイズし、データ目標に合わせてコントロールをカスタマイズします。 これらのコントロールの有効性にとって重要なのは、これらの標準の測定だけでなく、データの責任者が自分でアクションを実行し、データの価値に影響を与える改善を行う責任を負うことを保証することです。 Data Estate Health では、これらの重要な機能をすべて設定および管理できます。
前提条件
- Microsoft Purview 統合カタログで公開されているデータ製品、用語集の用語、およびその他のビジネス概念。 前のセクションに従って、以下を作成できます。
- データ製品のキュレーションから少なくとも 24 時間。
- 統合カタログにはデータ正常性所有者ロールが必要です。
データ資産の正常性を使用してデータ ガバナンスを評価する
Microsoft Purview ポータルを開きます。
[統合カタログ] を選択します。
左側のナビゲーションの [ データ資産の正常性 ] で、[ 正常性コントロール] を選択します。
[値の作成] コントロール グループの横にあるにんじんの>を選択します。
コントロール タイトルの上にマウス ポインターを合わせながら、鉛筆アイコンを選択してコントロールを編集します。 コントロールを編集することで、コントロールのしきい値を変更して、スコアの内容に対する期待値を設定し、進行状況ステージを示すカラー スコアリングを設定します。
詳細を使用すると、コントロールとその意味の説明をorganizationに指定し、特定のコントロールの所有者を設定できます。
コントロールの [ ルール ] タブを選択して、しきい値を変更します。 これは、目標が高く、正常でない場合はフォローアップすることが重要であることを示しています。
- [グループから継承]: トグルをオフにします (灰色になるはずです)。
- ターゲット スコア: 90
- [ 新しいルール] を選択します。
- スコアの横にあるボックスを GreaterThanOrEqual に設定します
- パーセンテージを 90 に設定する
- Status = Health (緑)
- Else Box Status = Critical (紫)
- [保存] を選択します。
[データ資産の正常性] で、[ メタデータの品質] を選択します。
ここでは、コントロールのスコアを作成するルールを変更または追加できます。 ここでは、すべてのユーザーがこのアクションの重要性を確実に把握できるように 、Value Creation のアクションの重大度を変更します。
- [ 重大度の構成] を選択します
- [値の作成] コントロール グループを選択します
- Business OKR の配置コントロール タイトルを選択します
- 重大度を [中] から [高] に変更し、[保存] を選択 します
- [ 正常性アクション ] タブを選択します
- 名前に割り当てられたフィルター:
- ガバナンスの期待が満たされていることを確認するためにアクションの所有者が何を行う必要があるかを確認できるアクションを選択するか、新しい所有者を割り当てて、最適な専門家に入力を提供してもらうことができます。 また、他のユーザーが進行中の作業と、他のアクションの優先順位付けが必要な場所を知らせる状態もあります。
手順 7: データの民主化
ユーザーが必要なデータを苦情の方法で見つけてアクセスできるようにすることは、データの民主化の本質であり、ビジネス価値を構築するために必要なデータを確実に見つけることができます。 クリーンで簡単にデータを検出できるようにすることは、Microsoft Purview 統合カタログの目的であり、スチュワードはカタログで利用できるデータを大規模に更新および管理できます。 このセクションでは、ユーザーがデータへのアクセスを見つけて要求する方法について説明し、適切な承認者がそれらのアクセス要求に関する入力を追跡および提供できるようにする方法について説明します。
前提条件
- 少なくとも手順 1 から 4 を完了しました。
- 1 つのガバナンス ドメインで閲覧者のアクセス許可を統合カタログする
データ製品を検出する
- 統合カタログで、[検出] を選択し、[データ製品] を選択します。
- [ データ製品 ] ページで、検索バーを使用して、年齢別にワクチン接種率を検索します。
- セクション 2 で公開したデータ製品が表示されます。 これは、ユーザーが検出対象のデータにのみ公開される方法を示し、高度に技術的なデータ資産をユーザーが移動する必要がないようにします。
-
Covid-19 ワクチン接種とケースの傾向を年齢別データ製品で選択する
- ここでは、コンシューマーは、指定したメタデータと、セットアップ中に構成されたその他のプロパティを確認できます。 データ品質スコアもここにあるため、コンシューマーはデータにアクセスする前に品質を把握しています。
- 資産を選択すると、コンシューマーは、 のすべての列がデータ資産で使用可能であることを確認できます。
- アウトブレイク用語集の用語を選択すると、コンシューマーは用語に関する説明やその他の情報を確認して、データをより深く理解できます。
- コンシューマーがそのデータを使用することを確信したら、データへの承認されたアクセス権を取得する必要があります。
- [ アクセスの要求] を選択します
- フォームの詳細を入力して要求を送信します。
- ユーザー: 自分の名前のままにします
- マネージャーの承認: 自動的に必要となり、Microsoft Entra ID マネージャーに送信されます。
- 目的: 目的を選択する
- ビジネス上の正当な理由: OKR 監視
- 構成証明の横にあるチェック ボックスをオンにして、このデータの使用に対する期待を理解しているとします。
- [ 送信] を選択します。
アクセス要求は、Microsoft Entra IDに一覧表示されているマネージドに送信されます。 ここから、マネージャーは、メールを開いてリンクを選択するか、Microsoft Purview にアクセスすることで、要求にアクセスできます。 アクセスの承認と管理は、Microsoft Purview で直接行うことができます。
- 統合カタログで、[カタログ管理] を選択し、[要求] を選択します。
- [Personal Health] ドメインを選択します。
- 送信した要求を選択します。
- これで、承認者は要求に 応じて [応答 ] を選択して承認または辞退できます。