データ カタログ開発のベスト プラクティス
この記事では、健全で価値のある検出可能なデータを維持するために実装できるデータ ガバナンス戦略について説明します。 データ カタログを設定するための技術的な手順の一覧については、データ カタログの 使用を開始するためのガイドを参照してください。
ビジネスの概念を使用してデータを把握する
ガバナンス ドメイン、データ製品、用語集の用語などのビジネス概念は、データを日常のビジネス プラクティスと結び付けます。 これにより、データ コンシューマーが使用しているデータを簡単に理解できるだけでなく、それらのリソースのデータ ガバナンスを民主化することができます。 既存のエキスパートとデータ チャンピオンを使用して、豊富なリソースにデータ カタログを構築します。
ガバナンス ドメインを作成する
ガバナンス ドメインは、所有権とメンテナンス タスクの両方を分散し、ユーザーが必要なデータを簡単に見つけられるようにするために使用されます。 ガバナンス ドメインによって情報を配布すると、ユーザーは、データ資産全体を走査することなく、必要な適切なレベルの情報に到達できます。
ガバナンス ドメインを作成する場合、またはガバナンス ドメインの構造を確認する場合は、次の点を考慮する必要があります。
ガバナンス ドメイン構造モデル
- 中央ドメイン (適切) - 1 つのドメインを使用すると、小規模な組織では効率的ですが、スケーリングが適切ではなく、成長中にボトルネックになりやすい可能性があります。
- 部署ベースのドメイン (適切) - 部門は一貫して意思決定を行いません。また、部門が定期的にシフトする場合は、データ カタログ構造をシフトすることが必要になる場合があります。
- 機能/基幹ガバナンス ドメイン (より優れた) - チームに柔軟性を付与し、既存のビジネス モデルに合わせて調整します。 これは大規模に管理するのが難しい場合があり、データの意思決定者を支援するために多くのサブドメインが必要になる場合があります。 また、データ 使用サイロを作成することもできます。これは、データ カタログのガバナンス アプローチのアンチテーゼです。
- ドメイン ミックス (最適) - 対象領域/データ ドメイン、機能ドメイン、規制ドメイン、およびプロジェクト ドメインにまたがるドメインの組み合わせを使用して、データをエキスパートに合わせます。 データ カタログでは、データエキスパートが最も強力なリソースです。ユーザーは、適用する必要があるポリシーと、データを最大限に活用するために他のユーザーが知る必要がある情報を把握しています。 また、この構造は、ビジネス構造ではなく、日々のデータの使用方法に基づいているため、組織の更新に対して最も持続性があります。
ガバナンス ドメイン開発計画
- ガバナンス ドメインの作成を開始するときは、既に強力なデータ スチュワードシップを持っているチームに合わせていくつかのドメインから始めます。
- データ スチュワードとデータ製品の所有者をガバナンス ドメインに割り当て、現在のプラクティスに合わせた用語集とデータ製品の開発を開始させます。
- 必要に応じて、データ マップにデータを並行してスキャンして、データ製品を補完します。
- いくつかのデータ製品が開発され、ユーザーの準備が整うまで、ガバナンス ドメインを ドラフト 状態のままにします。
- ガバナンス ドメインを発行し、データ カタログ閲覧者のアクセス許可を最初のユーザーに割り当てて、調査を開始できるようにします。
- ユーザーの最初のバッチからのフィードバックを使用して、既存のデータ製品を反復処理するか、次のデータ製品またはガバナンス ドメインに拡張します。
- データ製品のカバレッジがほぼ完全ないくつかのガバナンス ドメインから開始すると、データ カタログに必要なものがあり、引き続き戻ってくることがデータ コンシューマーに保証されます。
ヒント
ガバナンス ドメインをプラットフォーム ドメインに合わせることはお勧めしません。 IT は通常、テクノロジ構造またはサービス/アプリケーションと連携しており、ビジネス チームによるデータの使用方法とは一致しません。 データ マップ内のプラットフォーム ドメインは、ビジネス チームではなく、これらのテクノロジ チームと一致する可能性があります。 ガバナンス ドメインの目標は、ビジネス ユーザーに最も役立つ情報に合わせることです。 データ構造ではなくデータを使用して、ガバナンス ドメインを開発することに重点を置きます。
データ製品の作成
現在保存されているデータの多くは既知の価値がほとんどなく、削除または改善される前に、評価と理解に時間と手作業を要する可能性があります。 既知の価値と使用を持つデータに焦点を当てることで、より多くのチームが一貫した価値を構築し、十分に理解され、高度に活用されたデータを持つことの利点を示すようになります。 これにより、データ ガバナンス プラクティスの一層の導入が促進され、各データ資産の価値がより明確になるにつれて、データ資産をクリーンする作業が容易になります。
organizationに既に存在するデータ リソースに焦点を当てます。 これらをデータ カタログにデータ製品として追加すると、ユーザーがそれらを簡単に検出できるようになります。 また、アクセスのスケーラビリティを高め、系列、データ品質、説明責任を使用して信頼性を向上させます。 既存のデータ リソースの例を次に示します。
- ゴールド ゾーン データ レイク、高度にキュレーションされた SQL ストア、キュレーションされたデータ ウェアハウス/データ レイクハウス。チームが日々のプラクティスをサポートするために使用します。
- 意思決定に使用されるレポート。
- レポート環境で使用されるデータ テーブル。
- マスター データと参照データ。
データ製品開発計画
- データ ソースがMicrosoft Purview データ マップに追加される場合、データ製品の計画は取り込みプロセスの一部である必要があります。 データ製品の所有者は、登録およびスキャンされているデータ ストアと、データ カタログに追加する準備ができているデータ資産を把握する必要があります。
- データ マップにスキャンされたコア データ資産から最初のデータ製品を構築します。
- ユーザーがそのドメインでデータを使用する準備ができたら、最初のデータ製品を発行します。
用語集の用語を定義する
用語を構築するときは、既にわかっていることから始めて、データから価値を構築し続けて、作業が最も影響を与える場所を示します。 用語集の用語を作成および管理する際に従って、最も価値の高い用語を作成するためのヒントを次に示します。
- 最も情熱的なユーザーにデータを提供することは、価値を高め続ける能力を示し、より多くのガバナンスのための優先順位付けを提供します。
- 多くのビジネス チームには、新入社員がビジネスに向かうために役立つ用語集が既に用意されています。 これらを最初の用語候補の一部として使用して、ガバナンス ドメインとそのデータを記述します。
- 用語が別の概念 (エンティティやビジネス プロセスなど) を表すかどうかわからない場合は、用語の追加を開始して、最も基本的なメタデータが収集されるようにすることをお勧めします。 必要に応じて、用語の有効期限を切ることができ、新しい概念を使用して、より多くのメタデータを収集し、意図したエンドツーエンドのエクスペリエンスを促進できます。
- 用語集の用語が追加されると、これらの用語をデータ製品にリンクすると、データ製品の検出可能性が向上し、データに関する消費者の知識が向上します。
- 用語にマップされているデータ製品を定期的にチェックして、データスチュワードがデータ資産全体での使用をより適切に理解できるようにします。
- 用語定義は常に改善および編集できます。 完全に調整されるまで用語を発行するのを待つと、チームは用語の使用を遅らせ、潜在的な改善の新しい価値の創出やエスカレーションを防ぎます。
用語開発計画
- データ スチュワードは、ガバナンス ドメインのフレームワークを学習してから、既知の用語の追加を開始し、新しい用語の開発を開始する必要があります。
- 用語定義を開発し、コンシューマーがコンテキストを理解し、使用するための貴重な情報を含める必要があります。
- コンシューマーがデータユース ケースを開始し、カタログ内のデータを検出するために、最初の一連の用語とデータ製品を一緒に発行する必要があります。
- セマンティックな知識を構築することは決して止まるので、チームがガバナンス ライフサイクル全体を通じて用語の投稿を継続できるようにする方法について計画を立てます。
ビジネス価値のロックを解除する
基本的なデータ カタログ構造が整ったので、次は、ユーザーがアクセスできるようにし、ビジネス目標に直接リンクすることで、データの価値のロックを解除します。 データから価値を生み出すことは、そのデータを使用することですが、データを使用するということは、会社のすべての人が、必要な分析情報や機能を提供するために、適切なタイミングで適切な形式で適切なデータを見つける必要があることを意味します。 データ コンシューマーは、データから新しいビジネス価値を生み出す鍵です。
ユーザーがガバナンス ドメインとデータ製品を検索して参照できるようにする
ガバナンス ドメインとデータ製品を構築するのに時間がかかったため、データ コンシューマーにアクセスして使用し、その方法を確認できます。 ビジネス ユーザーは、ビジネス上の意思決定をタイムリーかつ十分な情報に基づいて行うために必要な分析情報で既に利用できる戦略的レポートを探している可能性があります。
ユーザーへのアクセスを戦略的に付与する方法を次に示します。
- まず、会社のすべてのユーザーにデータ カタログへのアクセス権を付与しないでください。 最初にカタログに含まれているデータを必要とするチームを有効にします。 データ サイエンティストが必要とする形式でデータ製品を利用できない場合、またはビジネス ユーザー向けの定義済みのレポートにデータが含まれていない場合、カタログに対する信頼が失われます。 適切なロールが最初にカタログを使用して成功への道を構築できるようにする。
- まず、カタログに含まれているデータを必要とするチームから始めます。 データ製品は誰のために構築しましたか? 用語集の用語を開発するのに役立ったチームはどれですか? これらは適切な初期候補です。
- まず、カタログにギャップが存在する場所を示すアナリストやデータエキスパートから始めます。 データ カタログに貢献できる専門家やビジネス所有者を指すのに役立ちます。 時間の経過とともに、データ カタログの完全性は、社内のすべてのユーザーが自分のデータ ニーズの大部分を見つけることができるほど素晴らしいものになります。
OKR の作成
目標と主要な結果を作成し、その価値を推進または測定するのに役立つデータ製品にデータを同一化することで、データのビジネス価値を示します。 ビジネス リーダーがデータの価値とガバナンスの重要性を評価できるようにすることで、チームがデータを構築、維持、管理して分析情報を作成する方法の優先順位付けと新しい相乗効果が促進されます。
目標を立て上げると、ユーザーとそれが推進するビジネスに対するデータの重要性がすぐに認識されます。 これにより、特定のデータがビジネス プロセスや目標を達成する能力で果たす役割の理解が大幅に向上します。
- プロセスの改善、品質の問題、主要な戦略的目標、およびビジネス価値と変化を示すためにデータで測定するその他の点について、OKR を検討してください。
- 目標の測定と評価方法を示す目的ごとに重要な結果を作成し、その目標を達成するための説明責任を作成してください。
- 達成するために必要な多くの重要な結果を持つ複雑な目標が存在する可能性があります。 重要な結果は、他の重要な結果とは別に進行する可能性があります。この測定では、優先順位付けが必要な領域や、軌道に戻るのに役立つ領域を示すことができます。
準拠データ アクセス
データへのアクセスを提供すると、会社にリスクが発生する可能性があり、アクセスが適切に付与され、データの責任ある使用が確実に行われるように、既知の標準とポリシーに従う必要があります。 データ カタログ内のユーザーは、検出時またはデータ使用時にデータ アクセス用のフォームを完成させることができます。 このフォームとプロセスをカタログの一部として保持すると、高度に変動する技術的なデータ資産に対するアクセス、セキュリティ、迅速、一貫性が確保されます。 カタログでアクセスを正常に設定する方法を次に示します。
- 適切な承認者がデータ製品に配置されていること、およびデータ製品の処理ニーズを理解していることを確認します。
- 一部のデータ製品には数百または数千のアクセス要求がある場合があるため、タイムリーなアクセスの承認とプロビジョニングを確保するために、分散タイム ゾーンにチームを配置する必要があります。
- 休暇や計画外の休暇がある場合に備えて、グループを準備するか、承認者をバックアップします。
- ガバナンス ドメインの所有者は、アクセス要求の概要を定期的にチェックして期待を検証し、アクセス要求プロセスを監視するコントロールへの変更が目的の応答時間を促進しているかどうかを確認する必要があります。
重要なデータ要素を使用して論理データ モデルを構築する
データエンティティと要素の深い技術的理解と期待を向上させるために、データがそれらの期待を満たしているかどうかをアサートするための新しいコントロールが含まれます。 データ ディクショナリとデータの論理モデルを作成すると、目的に合ったデータの構造と深いビジネス期待が得られます。 この知識をData Catalogチームに組み込むことで、データがどのように構造化されているか、その理由、および物理データ資産で実際に利用できる内容が異なる可能性があるかをすぐに理解できるようになります。
- ドメインにとって最も重要なデータ要素に焦点を当てます。 重要なデータ要素は、データがビジネスに与える深い専門知識と重要性を示します。
- ドメイン全体の要素の完全性に焦点を当てないでください。 すべての列にこのレベルの制御が必要なわけではありません。多くのデータ要素がユーザーにとって自明である可能性があります。
- さまざまなチームで重要なデータ要素を評価することで、ビジネス チームが自分のデータについて共通の理解を持ち、1 つのチームが作成する内容がビジネスの他の多くの領域にどのような影響を与えているかを確認できます。
- アクセス ポリシーを重要なデータ要素に合わせることにより、データ資産全体の重要なデータに対して適切なアクセス制御が確実に行われます。
- 重要なデータ要素のデータ品質ルールを構築すると、データがどこで、どのように使用されているかに関係なく、データが期待を満たすことができます。
データの成熟度を高める
データ資産とガバナンスを改善してギャップを埋め、価値創出のボトルネックを取り除きます。
- 正常性アクションを監視して、データ カタログ全体のガバナンスを段階的に改善します。
- データの新しい使用に最適化し、データ品質を向上させることでデータの問題を排除します。
- マスター データ管理を使用して、単一の信頼できるソースに対してクラス最高のデータ製品を作成します。
- データの正常性を評価し、最大の価値への影響を優先します。
会社を運営するコア データに深く投資することで、このデータをビジネス全体で一貫して使用できるため、データの問題を一貫して排除し、分析情報を作成するための安定した基盤が提供されます。 データの問題の証拠を持つことは、データ ガバナンスの実行可能性を確保するのに役立ちますが、価値がまだ十分に理解されていないデータ領域に投資することなく、新しい価値をすぐに引き出す改善が促進されます。 データの成熟度を継続的に改善することで、チームは互いに学習を共有し、変更が行われるにつれて改善の証拠を示すのに役立ちます。
ガバナンスに重点を置いたアクションを使用してデータ製品を改善する
データに対する信頼を構築するには、継続的な改善とサポートが必要です。 コンシューマーはデータの検索と適用に時間がかかりますが、問題やサポート ニーズに注意を払うと、ベスト プラクティスに基づいて事前に実行できる簡単なアクションがあります。 正常性管理の正常性アクションは、データ カタログに役立つこれらのアクションの完全な一覧を提供し、ガバナンスを改善するために次にできることに焦点を当てるのに役立ちます。 正常性アクションを使用して最大限の価値を得るためのベスト プラクティスを次に示します。
- データ製品がまだドラフト状態にある間に、データ製品のアクションを確認します。 これにより、公開時に基本がカバーされ、このデータが慎重に公開されたことを消費者に快適に提供できます。
- すべてのアクションを同時に実行する必要はありません。 一部のアクションでは、データの詳細を学習したり、スチュワードと連携してより明確にしたりするときに、解決に時間がかかる場合があります。 アクションを確認し、新しい改善が行われる準備ができている場所を確認します。
- アクションが圧倒的、不要、または低価値のノイズのように見える場合は、正常性コントロールに変更を加えることを検討してください。 ユーザーが実行するアクションの数を最適化すると、適切なレベルのガバナンスがデータに適用されます。
データ品質を使用してデータの信頼性を向上させる
多くの場合、データ品質は、データ内の特定の問題を解決するための 1 回限りのプロジェクトです。 これらの改善はありますが、続くわけではありません。 優れたデータ品質には、問題が返されないか、新しい問題が作成されないように、継続的な評価と改善が必要です。
- データ品質の期待のベースラインが定義されたら。 ビジネスがデータを使用に合わせて機能し続けるためには、問題をタイムリーに修復するための計画を立てる必要があります。
- データ品質スキャンを定期的に実行するようにスケジュールすると、データが継続的に改善され、非常にサポートされていることをコンシューマーに保証するのに役立ちます。
- 重要なルールとスコアの変更に関するアラートを設定すると、コンシューマーが問題を検出または発生する前に、データ プロバイダーが問題を修正できるようになります。 また、アラートは、エクスペリエンスで見つける前に、または品質の低いデータに基づいて意思決定を行う前に、コンシューマーの問題と透過的に共有するためにも使用できます。
マスター データ管理を使用して真のデータ製品のソースを作成する
一部のデータは、ほぼすべてのプロセスとビジネス全体にとって非常に重要であり、優れたレベルの管理とガバナンスに値します。 これらのデータ エンティティは、通常、顧客リストや従業員プロファイルなどのクロスカット エンティティであり、多くのビジネス プロセスで深いビジネス専門知識と経験を必要とします。 一部のデータは非常に使用可能ですが、スケールは低く、より深いレベルの制御と管理の恩恵を受けることができます。は、国/地域、通貨、または業界セグメントの参照データ属性などです。 これらの各データ型は、マスター データ管理ソリューションの恩恵を受け、ビジネス全体で使用するのに適した真実のソースを構築します。
- この重要なデータがクリーンかつ一貫性を保つには、データ品質を使用したマスター データ管理の実践が不可欠です。
- このレベルのデータ管理は労力が高いため、貴重なデータ要素またはリスクの高いデータ要素を選択して、作業によって高い価値が得られるようにします。
- マスター データの重要なデータ要素とデータ製品を作成する。 これらのパートナー オブジェクトは、データ カタログ内のマスター データを昇格させ、その使用と理解を高めるのに役立ちます。
- マスター データの新しい正常性コントロールを構築して、大規模な使用を継続的に評価し、新しいマスターされていないデータが使用され、急速に進化するデータ資産で混乱を引き起こさないようにします。
データ正常性コントロールを使用してガバナンスの成熟度を測定する
ガバナンスが効果的であり、ビジネス価値を生み出すためには、ビジネス全体で大規模なデータ ガバナンスの成熟度を評価する必要があります。 コントロールの組み込みの測定を適用することで、正常性管理を使用すると、中央データ オフィスまたは個々のガバナンス ドメインで、実行できるその他の場所を確認できます。 この証拠を大規模に収集すると、ビジネスに影響を与える最も重要なデータの問題が迅速に昇格し、1 つの問題がビジネスの多くの領域に影響を与える可能性があります。 この証拠は、データ管理の変更に関する優先順位付けの問題を解決するのに役立ち、適切なレベルのガバナンスを実施することの価値をすばやく示します。
- 健康管理のプラクティスを確認するためのビジネス のリズムを確立する:
- ガバナンス ドメイン リーダーと中央データ オフィスと月単位でレビューを行い、新しいガバナンスまたは技術的なソリューションの優先順位とニーズについて話し合います。
- チームが健康管理レポートを深く掘り下げて、ビジネスに必要な価値を生み出すために最適な意思決定を行えるようにします。
- SLT から個々のスチュワードまで、あらゆるレベルのビジネスに正常性管理を提供し、ガバナンスが適切に平準化され、一貫して実行可能であることを確認します。
- ビジネス間のコラボレーションやより深いガバナンスを必要とするデータの問題が大きい場合は、新しいガバナンス ドメインを作成し、そのデータのガバナンスを推進するための所有権を定義することを検討してください。
- すべてのガバナンス ドメインが同じレベルの成熟度を持っているか、ガバナンスの同じ側面に焦点を当てることを期待しないでください。
- 適切なレベルでガバナンスを有効にすると、ビジネス所有者はデータを使用して何を行うかについて最も価値のある意思決定を行うことができます。
- ビジネスのすべての部分がデータの同じニーズを持っているわけではないので、より深いレベルのガバナンスを強制しても、焦点が他の場所にある場合にビジネス価値を生み出すのに役立たない可能性があります。
- 一部のデータは、データ資産の価値が低い、または出現しており、その値はまだ完全にはわかっていません。 チームが迅速に移動し、ニーズに適応できるようにすることで、データの価値を使用してガバナンスを成熟させることができます。
- 正常性管理を一貫して評価し、大きな問題や注意が必要な新しい学習を示す大きな変更を探します。
- 正常性管理スコアを共有します。 共有を使用すると、チームをまとめ、チームの機能や、ドメイン内に新しい価値を構築するための新しいコントロールを見つける方法を学ぶことができます。 "良い" 正常性がどのように見えるかを確認すると、他のチームが改善を促し、消費者に貴重なデータも確実に提供できるようになります。
ドメイン固有の標準を構築する
データ ガバナンスが価値レベルに合わせて適切なサイズであることを確認し、必要な制御を行うのが、データのビジネス所有者によって最も適切に処理されます。 これらのビジネス チームは既にデータに依存しており、期待を定義するための最適な位置にあり、データが価値があることを確認する必要があります。
- データの使用場所に関係なく、ガバナンス ドメインがデータの新しいコントロールを作成できるようにします。
- すべてのガバナンス ドメインが同じレベルのコントロールを必要としたり、すべてのコントロールを採用したりする必要はありません。 設計によってビジネスの 1 つの部分に限定されたデータは、高度な制御のメリットを得られない可能性があります。 適切な値を持たないデータをより詳細に制御すると、チームが完全に利用されていないデータを収集または保持できなくなる可能性があります。
- 適切なレベルの制御を使用して、低価値のデータをガバナンス ドメインから削除できる場所を優先順位付けして、リスクを排除し、データ資産の価値を高めることができます。