データと AI ガバナンスのベスト プラクティス
この記事では、データと AI ガバナンスのベスト プラクティスについて、以下のセクションで示すアーキテクチャの原則ごとにまとめて説明します。
1. データと AI 管理を統合する
データと AI ガバナンスのプロセスを整備する
データと AI ガバナンスとは、組織のデータと AI 資産の可用性、使いやすさ、整合性、セキュリティの管理です。 データと AI ガバナンスを強化することで、組織は、正確な分析と意思決定に不可欠な資産の品質を確保し、新たな営業案件を見つけて、顧客満足度を高め、最終的に収益を増やすことができます。 これは、組織がデータと AI のプライバシーに関する規制に準拠し、セキュリティ対策を改善して、データ侵害やペナルティのリスクを軽減するのに役立ちます。 効果的なデータ ガバナンスにより、冗長性が排除され、データ管理が合理化され、コスト削減と運用効率の向上が実現します。
組織は自分たちに最も適したガバナンス モデルを選びたいと考えます。
- 一元的なガバナンス モデルでは、ガバナンス管理者がメタストアの所有者であり、任意のオブジェクトの所有権を取得し、アクセス許可の付与と取り消しを行うことができます。
- 分散型ガバナンス モデルでは、カタログまたはカタログのセットがデータ ドメインです。 そのカタログの所有者は、すべての資産を作成および所有し、そのドメイン内のガバナンスを管理できます。 特定のドメインの所有者は、他のドメインの所有者とは独立して運用できます。
Databricks データ インテリジェンス プラットフォームには、データと AI ガバナンス ソリューションである Unity Catalog が統合されています。 これは両方のガバナンス モデルをサポートし、任意のクラウドまたはプラットフォーム上の構造化および非構造化データ、ML モデル、ノートブック、ダッシュボード、ファイルをシームレスに管理するのに役立ちます。 データと AI ガバナンスを実装するには、「Unity Catalog のベスト プラクティス」が役に立ちます。
すべてのデータと AI 資産のメタデータを 1 か所で管理する
すべての資産のメタデータを 1 か所で管理する利点は、すべてのデータについて信頼できる唯一の情報源を維持する利点と似ています。 これには、データの冗長性の低減、データの整合性の向上、定義や分類の違いに起因する誤解の排除が含まれます。 また、グローバル ポリシー、基準、ルールを 1 つのソースで実装する方が簡単です。
ベスト プラクティスとして、Unity Catalog を使用して、1 つのアカウントでレイクハウスを実行します。 Unity Catalog では、データとボリューム (任意のファイル) のほか、特徴や AI モデルなどの AI 資産も管理できます。 Unity Catalog 内のオブジェクトの最上位レベルのコンテナーはメタストアです。 このコンテナーにデータ資産 (テーブルやビューなど) と、それらへのアクセスを制御するアクセス許可を保存します。 待機時間の問題を回避するために、クラウド リージョンごとに 1 つのメタストアを使用し、リージョンをまたいでメタストアにアクセスしないでください。
メタストアには、データ、ボリューム、AI 資産を構造化するための 3 レベルの名前空間が用意されています。
Databricks では、カタログを使って組織の情報アーキテクチャ全体で分離を実現することをお勧めします。 多くの場合、これは、ソフトウェア開発環境のスコープ、チーム、またはビジネス ユニットに対応したカタログを使用できることを意味します。
データと AI 系列を追跡してデータの可視性を向上させる
データ系列は、データ リーダーが組織におけるデータの可視性を高めてデータの理解を深めるのに役立つ強力なツールです。 データ系列は、ソースから分析情報へのデータの変換と絞り込みを記述します。 これには、データ セットのソース、データの作成に使用された他のデータ セット、誰がいつデータを作成したか、どのような変換が行われたか、他のどのデータ セットがそのデータを使用しているか、その他多くのイベントや属性など、ライフサイクル全体のデータに関連するすべての重要なメタデータとイベントの捕捉が含まれます。
さらに、Unity Catalog のテーブルでモデルをトレーニングする場合、モデルのトレーニングおよび評価の元になったアップストリーム データセットに対してモデルのデータ系列を追跡できます。
データ系列は、多くのデータ関連のユース ケースに使用できます。
- コンプライアンスと監査への対応性: データ系列は、組織がテーブルやフィールドのソースを追跡するのに役立ちます。 これは、一般データ保護規則 (GDPR)、カリフォルニア消費者プライバシー法 (CCPA)、医療保険の相互運用性と責任に関する法律 (HIPAA)、バーゼル銀行監督委員会 (BCBS) 239、およびサーベンス・オクスリー法 (SOX) など、多くのコンプライアンス規制の要件を満たす上で重要です。
- 影響分析/変更管理: データは、ソースからビジネスに対応した最終的なテーブルに至るまでに複数の変換を経ます。 データ変更がダウンストリーム ユーザーに及ぼす潜在的な影響を理解することは、リスク管理の観点から重要です。 Unity Catalog によって取得されたデータ系列を使用して、この影響を簡単に判断できます。
- データ品質保証: データ セットがどこから来たものか、どのような変換が適用されたかを理解することで、データ サイエンティストやデータ アナリストは従来よりはるかに明確なコンテキストを把握できるため、より適切で正確な分析情報を得ることができます。
- デバッグと診断: 予期しない結果が発生した場合、データ系列は、データ チームがソースまでさかのぼってエラーをトレースすることで根本原因分析を実行するのに役立ちます。 これにより、トラブルシューティング時間が大幅に短縮されます。
Unity Catalog は、Azure Databricks で実行されているクエリ全体のランタイム データ系列と、モデル データ系列を取得します。 系列はすべての言語でサポートされ、列レベルまでキャプチャされます。 系列データには、クエリに関連するノートブック、ジョブ、ダッシュボードが含まれます。 データ系列は、Catalog Explorer で準リアルタイムに視覚化でき、Databricks の Data Lineage REST API を使用してアクセスできます。
メタデータに一貫性のある説明を追加する
説明は、データについての重要なコンテキストを提供します。 ユーザーがデータ テーブルと列の目的と内容を理解するのに役立ちます。 この明確さにより、必要なデータをより簡単に検出、識別、フィルター処理できます。このことは、効果的なデータ分析と意思決定に不可欠です。 説明には、データの機密性とコンプライアンスの情報を含めることができます。 これにより、組織はデータのプライバシーとセキュリティに関する法的要件と規制要件を満たすことができます。 説明には、データのソース、正確性、関連性に関する情報も含める必要があります。 これにより、データの整合性を確保しやすくなり、チーム間のコラボレーションが促進されます。
Unity Catalog の主な 2 つの機能でテーブルと列の説明がサポートされています。 Unity Catalog では次のこともできます
コメント形式でテーブルと列にコメントを追加する。
Unity Catalog によって管理される任意のテーブルまたはテーブル列に対して、AI によって生成されたコメントを追加してプロセスをスピードアップすることができます。 ただし、AI モデルは必ずしも正確であるとは限らないため、コメントは保存する前にレビューする必要があります。 Databricks では、AI によって生成されたコメントを人間がレビューして不正確さをチェックすることを強く推奨しています。
Unity Catalog でセキュリティ保護可能なものにタグを追加する。 タグは、Unity Catalog のセキュリティ保護可能なさまざまなオブジェクトに適用できる、キーと省略可能な値を含む属性です。 タグ付けは、セキュリティ保護可能なさまざまなオブジェクトを 1 つのメタストア内で整理して分類するのに便利です。 また、タグを使用すると、データ資産の検索と検出も簡単になります。
データ コンシューマーの簡単なデータ検出を可能にする
簡単なデータ検出により、データ サイエンティスト、データ アナリスト、データ エンジニアは関連データを迅速に検出して参照し、価値実現までの時間を短縮することができます。
Databricks Catalog Explorer には、データ、スキーマ (データベース)、テーブル、アクセス許可、データ所有者、外部の場所、資格情報を探索および管理するためのユーザー インターフェイスが用意されています。 さらに、Catalog Explorer の [分析情報] タブを使用して、Unity Catalog に登録されている任意のテーブルの最近、最も頻繁なクエリとユーザーを表示できます。
データと共に AI 資産を管理する
データ ガバナンスと人工知能 (AI) の関係は、成功に不可欠なものになっています。 組織がデータを管理し、セキュリティで保護し、使用する方法は、AI 実装の結果と考慮事項に直接影響します。質の高いデータがなければ AI を活用できず、データ ガバナンスがなければ質の高いデータを得ることはできません。
データと AI を一緒に管理することで、高品質で最新のデータにシームレスにアクセスできるようになり、AI のパフォーマンスが向上し、正確性の向上、意思決定の向上につながります。 サイロを解体すると、コラボレーションの向上とワークフローの合理化によって効率が上がり、生産性が向上し、コストが削減されます。
もう 1 つの利点として、データ セキュリティの強化があります。これは、統一されたガバナンス アプローチによって一貫したデータ処理プラクティスが確立され、脆弱性が軽減されて、機密情報を保護する組織の能力が向上することによるものです。 データと AI ガバナンスを統合すると、データの取り扱いや AI プロセスが規制要件に合わせて調整されるため、データ プライバシー規制への準拠を維持しやすくなります。
全体として、統合ガバナンス アプローチは、データと AI の両方に対する明確なポリシーと手順を確立することで、関係者間の信頼を促進し、AI の意思決定プロセスの透明性を確保します。
Databricks データ インテリジェンス プラットフォームでデータと AI 資産の両方を管理するための中心となるコンポーネントは、Unity Catalog です。
-
Unity Catalog 対応ワークスペースでは、データ サイエンティストは Unity Catalog に特徴テーブルを作成できます。 これらの特徴テーブルは Unity Catalog によって管理される Delta テーブルまたは Delta Live Tables です。
-
Unity Catalog のモデルは、Unity Catalog の利点を ML モデルに拡張します。これには、ワークスペース全体の一元的なアクセス制御、監査、系列、モデル検出が含まれます。 Unity Catalog でのモデルの主な特徴には、モデルのガバナンス、時系列モデルのデータ系列、モデルのバージョン管理、エイリアスによるモデル デプロイなどがあります。
2. データと AI セキュリティを統合する
すべてのデータと AI 資産のアクセス制御を一元化する
すべてのデータ資産のアクセス制御を一元化することが重要であるのは、これらの資産へのアクセスを管理および監査するための一元的な場所を提供することで、データと AI 資産のセキュリティとガバナンスが簡素化されるためです。 このアプローチはデータと AI オブジェクトのアクセスをより効率的に管理するのに役立ちます。それにより、規制に対するコンプライアンスとリスク回避に不可欠な、職務の分離に関する運用要件が確実に適用されます。
Databricks データ インテリジェンス プラットフォームにより、どのグループまたは個人がどのデータにアクセスできるかを記述する、データ アクセス制御のためのメソッドが提供されます。 これは、各個人がアクセスできる各レコードの定義に至るまでを網羅した非常に細かく具体的なポリシー ステートメントです。 あるいは、すべての財務ユーザーにすべての財務データを表示するなど、非常に表現力豊かで、幅広いメカニズムである場合もあります。
Unity Catalog は、テーブル、ファイル、モデルやその他さまざまなものを対象にした、すべてのサポートされているセキュリティ保護可能なオブジェクトのアクセス制御を一元化します。 Unity Catalog 内のセキュリティ保護可能なオブジェクトのそれぞれに所有者が存在します。 オブジェクトの所有者は、オブジェクトに対するすべての権限に加えて、セキュリティ保護可能なオブジェクトに対する権限を他のプリンシパルに付与することもできます。 Unity Catalog を使用すると、権限を管理したり、SQL DDL ステートメントを使用してアクセス制御を構成したりできます。
Unity Catalog では、行フィルターと列マスクを使用した、きめ細かなアクセス制御が行われます。 行フィルターを使うと、テーブルにフィルターを適用して、後続のクエリでフィルター述語が true と評価される行だけが返されるようにすることができます。 列マスクを使うと、テーブル列にマスキング関数を適用できます。 マスキング関数はクエリ実行時に評価され、ターゲット列の各参照がマスキング関数の結果に置き換えられます。
詳細については、「セキュリティ、コンプライアンスおよびプライバシー - 最小限の特権を使用した ID およびアクセスの管理」を参照してください。
監査ログを構成する
監査ログは重要です。システムの整合性に影響を与える可能性があるシステム アクティビティ (ユーザー アクション、設定の変更など) の詳細な説明を提供するものだからです。 標準的なシステム ログは、問題のトラブルシューティングを行う開発者に役立つように設計されていますが、監査ログには、コンプライアンスやその他のビジネス ポリシー適用の目的に沿ってアクティビティの履歴レコードが提供されます。 堅牢な監査ログを維持することで、脅威、侵害、詐欺や、その他のシステムの問題を特定しやすくなり、備えを確実に整えることができます。
Databricks では、Databricks ユーザーが実行したアクティビティの監査ログにアクセスできるので、組織は詳細な Databricks の使用パターンを監視できます。 ログには、ワークスペース レベルのイベントを含むワークスペース レベルの監査ログと、アカウント レベルのイベントを含むアカウント レベルの監査ログの 2 種類があります。
また、詳細監査ログを有効にすることもできます。これは、ワークスペースでクエリまたはコマンドが実行されるたびに記録される追加の監査ログです。
データ プラットフォーム イベントを監査する
監査ログは、システム アクティビティの詳細な説明を提供するので重要です。 データ インテリジェンス プラットフォームには、メタデータ アクセス (したがってデータ アクセス) とデータ共有の監査ログがあります。
- Unity Catalog は、メタストアに対して実行されたアクションの監査ログをキャプチャします。 これにより、管理者は、特定のデータセットにアクセスしたユーザーと、実行したアクションに関する詳細にアクセスできます。
- Delta Sharing を使用した安全な共有のために、Azure Databricks は、次の場合などに Delta Sharing イベントを監視するための監査ログを提供します。
- 他のユーザーが共有または受信者を作成、変更、更新、または削除する場合。
- 受信者がアクティブ化リンクにアクセスして、資格情報をダウンロードする場合。
- 受信者が共有テーブル内の共有またはデータにアクセスする場合。
- 受信者の資格情報がローテーションまたは期限切れになった場合。
3. データ品質基準を確立する
Databricks データ インテリジェンス プラットフォームは、組み込みの品質管理、テスト、監視、適用を備えた堅牢なデータ品質管理を提供し、ダウンストリーム BI、分析、機械学習のワークロードで正確で有用なデータを利用できるようにします。
実装の詳細については、信頼性 - データ品質の管理に関するページを参照してください。
明確なデータ品質基準を定義する
明確で実用的なデータ品質基準を定義することが重要です。それは、分析、レポート、意思決定に使用されるデータの高い信頼性を確保するのに役立ちます。 これらの基準を文書化することは、それらが確実に遵守されるようにするのに役立ちます。 データ品質基準は、ビジネスの特定のニーズに基づいている必要があり、正確性、完全性、一貫性、タイムライン、信頼性などのデータ品質の分析コードに対応している必要があります。
- 正確性: データが実際の値を正確に反映していることを確認します。
- 完全性: 必要なすべてのデータを取得する必要があり、重要なデータの欠落がないようにする必要があります。
- 一貫性: すべてのシステムのデータは一貫性があり、他のデータと矛盾しないようにする必要があります。
- タイムライン: データを更新し、タイムリーに利用できるようにする必要があります。
- 信頼性: データは、信頼性が確保されるような方法で供給され、処理される必要があります。
データのプロファイリング、クレンジング、検証、監視にデータ品質ツールを使用する
データのプロファイリング、クレンジング、検証、監視にデータ品質ツールを活用します。 これらのツールは、データ品質の問題を検出して修正するプロセスを自動化するのに役立ちます。これは、データ レイクで一般的な大規模なデータセット全体でデータ品質イニシアチブをスケーリングするために不可欠です
DLT を使用しているチームの場合、期待値を使用して、データセットの内容に対してデータ品質制約を定義します。 期待値により、テーブルに到着するデータがデータ品質要件を満たすことを保証し、パイプラインの更新ごとにデータ品質に関する分析情報を提供できます。
標準化されたデータ形式と定義を実装して適用する
標準化されたデータ形式と定義は、すべてのシステムでデータの一貫した表現を実現し、チームや部門の間でのコミュニケーションとコラボレーションを強化することで、データの統合と分析を容易にし、コストを削減し、意思決定を改善するのに役立ちます。 また、データ品質を作成および維持するための構造を提供するのにも役立ちます。
組織全体で使用されるすべてのデータ要素の定義、形式、許容される値を含む標準データ ディクショナリを開発して適用します。
すべてのデータベースとアプリケーションで一貫した名前付け規則、日付形式、測定単位を使用して、不一致や混乱を防ぎます。