次の方法で共有


Microsoft Purview データ品質の概要

注:

Microsoft Purview データ カタログは、名前を Microsoft Purview 統合カタログに変更しています。 すべての機能は同じままです。 新しい Microsoft Purview データ ガバナンス エクスペリエンスがリージョンで一般公開されると、名前の変更が表示されます。 リージョン内の名前を確認します

Microsoft Purview データ品質は、ガバナンス ドメインとデータ所有者がデータ エコシステムの品質を評価および監視し、目標とする改善のためのアクションを容易にする包括的なソリューションです。 今日の AI 主導の環境では、データの信頼性が AI 主導の分析情報と推奨事項の精度に直接影響します。 信頼できるデータがないと、AI システムに対する信頼が損なわれ、導入が妨げられるリスクがあります。

データ品質の低下や互換性のないデータ構造は、ビジネス プロセスと意思決定機能を妨げる可能性があります。 Microsoft Purview データ品質は、すぐに使用できる (OOB) ルールや AI によって生成されるルールなど、コードなし/低コードのルールを使用してデータ品質を評価する機能をユーザーに提供することで、これらの課題に対処します。 これらのルールは列レベルで適用され、集計され、データ資産、データ製品、ガバナンス ドメインのレベルでスコアが提供され、各ドメイン内のデータ品質がエンドツーエンドで可視化されます。

Microsoft Purview データ品質には、AI を利用したデータ プロファイリング機能も組み込まれており、これらの推奨事項を調整するための人間の介入を許可しながら、プロファイリング用の列を推奨します。 この反復プロセスは、データ プロファイルの精度を向上させるだけでなく、基になる AI モデルの継続的な改善にも貢献します。

組織は、Microsoft Purview データ品質を適用することで、データ資産の品質を効果的に測定、監視、強化し、AI 主導の分析情報の信頼性を強化し、AI ベースの意思決定プロセスに対する信頼を高めることができます。

データ品質のライフ サイクル

  1. すべてのデータ品質機能を使用するために、データ カタログ内のユーザーのデータ品質スチュワードアクセス許可を割り当てます
  2. Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
  3. データ製品にデータ資産を追加する
  4. データ品質評価のためにソースを準備するために、データ ソース接続を設定します
  5. データ ソース内の資産のデータ プロファイルを構成して実行します。
    1. プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
  6. プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
  7. データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
  8. スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。
  9. データ資産のライフ サイクルで手順 5 から 8 を定期的に繰り返して、品質を維持します。
  10. データ品質を継続的に監視する
    1. データ品質アクションを確認 して、問題を特定して解決します。
    2. 品質の問題を警告するようにデータ品質通知を設定 します。

サポートされているデータ品質リージョン

Microsoft Purview データ品質は現在、次のリージョンでサポートされています

サポートされているマルチクラウド データ ソース

  • Azure Data Lake Storage (ADLS Gen2)
    • ファイルの種類: Delta Parquet と Parquet
  • Azure SQL データベース
  • ショートカットとミラーリング データ資産を含む OneLake のファブリック データ資産。 データ品質スキャンは、Lakehouse デルタ テーブルと Parquet ファイルに対してのみサポートされます。
    • ミラーリング データ資産: CosmosDB、Snowflake、Azure SQL
    • ショートカット データ資産: AWS S3、GCS、AdlsG2、dataverse
  • サーバーレスおよびデータ ウェアハウスのAzure Synapse
  • Azure Databricks Unity Catalog
  • Snowflake
  • Google ビッグ クエリ (プライベート プレビュー)

重要

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

  1. Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接 FQN である必要があります。
  2. 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

一貫性のある Parquet データセット スキーマを提示するこれらの重要なシナリオの両方がサポートされています。
制約: これは、Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするように設計されていないか、サポートされていません。 (1) または (2) 構築された構造でデータを提示するようにお客様にアドバイスします。

現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4Delta Lake 2.4 で実行されます。

データ品質機能

  • データ ソース接続の構成
    • Purview DQ SaaS アプリケーションが品質スキャンとプロファイリングのためにデータへの読み取りアクセスを許可するように接続を構成します。
    • MS Purview では、認証オプションとしてマネージド ID が使用されます
  • データ プロファイリング
    • AI 対応データ プロファイル エクスペリエンス
    • 業界標準の統計スナップショット (分布、最小値、最大値、標準偏差、一意性、完全性、重複、...
    • 列レベルのプロファイリング メジャーをドリルダウンします。
  • データ品質ルール
    • 6 つの業界標準データ品質ディメンション (完全性、一貫性、適合性、正確性、鮮度、一意性) を測定するための標準外ルール
    • カスタム ルール作成機能には、すぐに使用する関数と式の値の数が含まれます。
    • AI 統合エクスペリエンスを使用して自動生成されたルール
  • データ品質スキャン
    • データ品質スキャンの列にルールを選択して割り当てます。
    • エンティティ/テーブル レベルでデータの鮮度ルールを適用して、データの鮮度 SLA を測定します。
    • データ品質スキャン ジョブの期間のスケジュール設定 (時間単位、日単位、週単位、月単位など)
  • データ品質ジョブの監視
    • データ品質ジョブの状態の監視 (アクティブ、完了、失敗など) を有効にする
    • DQ スキャン履歴の参照を有効にします。
  • データ品質スコアリング
    • ルール レベルのデータ品質スコア (列に適用されたルールの品質スコアとは)
    • データ資産、データ製品、およびガバナンス ドメインのデータ品質スコア (1 つのガバナンス ドメインに多数のデータ製品を含めることができる、1 つのデータ製品に多数のデータ資産を含めることができる、1 つのデータ資産に多数のデータ列を含めることができる)
  • 重要なデータ要素 (CDEs) のデータ品質
    • これは Purview Data Quality の主要な機能の 1 つであり、データ品質ルールを CDE の論理コンストラクトに適用し、それらを構成する物理データ要素に伝達する機能です。 CDEs レベルでデータ品質規則を定義することで、組織は、品質を維持するために CDEs が満たす必要がある特定の基準としきい値を確立できます
  • データ品質アラート
    • データ品質のしきい値が予想を超えた場合にデータ所有者、データ スチュワードに通知するようにアラートを構成します。
    • データ品質の問題に関する通知を送信するように電子メール エイリアスまたは配布グループを構成します。
  • データ品質アクション
    • DQ のアクション センターでは、DQ の異常状態に対処するためのアクションが含まれます。これには、DQ スチュワードの診断クエリを特定のデータに対してゼロにして、異常状態ごとに修正します。
  • データ品質マネージド仮想ネットワーク
    • プライベート エンドポイントと Azure データ ソースに接続するデータ品質によって管理される仮想ネットワーク。

制限

  • vNet は、Google Big Query、Snowflake、Azure Data bricks Unity カタログではサポートされていません。

次の手順

  1. すべてのデータ品質機能を使用するために、データ カタログ内のユーザーのデータ品質スチュワードアクセス許可を割り当てます
  2. データ品質評価のためにソースを準備するために、データ ソース接続を設定します
  3. データ ソース内の資産のデータ プロファイルを構成して実行します。