次の方法で共有


Fabric Lakehouse データ資産のデータ品質 (プライベート プレビュー)

注:

Microsoft Purview データ カタログは、名前を Microsoft Purview 統合カタログに変更しています。 すべての機能は同じままです。 新しい Microsoft Purview データ ガバナンス エクスペリエンスがリージョンで一般公開されると、名前の変更が表示されます。 リージョン内の名前を確認します

Fabric OneLake は、organization全体の単一の統合された論理データ レイクです。 Data Lake は、さまざまなソースからの大量のデータを処理します。 OneDrive と同様に、OneLake はすべての Microsoft Fabric テナントに自動的に付属し、すべての分析データの単一の場所として設計されています。 OneLake では、次の顧客が提供されます。

  • organization全体の 1 つのデータ レイク
  • 複数の分析エンジンで使用するデータの 1 つのコピー

OneLake は、データの移動や複製を行わずに、データの 1 つのコピーから可能な限り最大限の価値を提供することを目的としています。 データを別のエンジンで使用したり、サイロを分割したりするためにデータをコピーする必要がなくなり、他のソースのデータを使用してデータを分析できます。 Microsoft Purview を使用して、ファブリック データ資産をカタログ化し、データ品質を測定して、改善アクションを管理および推進できます。

ショートカットを使用して、他のファイルの場所に格納されているデータを参照できます。 これらのファイルの場所は、同じワークスペース内、または異なるワークスペース間、OneLake 内、または Azure Data Lake Storage (ADLS)、AWS S3、または Dataverse の OneLake の外部にあり、より多くのターゲットの場所が近日公開される予定です。 データ ソースの場所はそれほど重要ではありません。OneLake ショートカットを使用すると、ファイルとフォルダーがローカルに保存されたように見えます。 チームが個別のワークスペースで独立して作業する場合、ショートカットを使用すると、さまざまなビジネス グループやドメインのデータを仮想データ製品に結合して、ユーザー固有のニーズに合わせることができます。

ミラーリングを使用して、さまざまなソースのデータを Fabric Mirroring in Fabric に取り込むことができます。これは、さまざまなシステムのデータを 1 つの分析プラットフォームにまとめる低コストで待機時間の短いソリューションです。 Azure SQL Database、Azure Cosmos DB、Snowflake からのデータなど、既存のデータ資産を Fabric の OneLake に直接継続的にレプリケートできます。 OneLake のクエリ可能な形式で最新のデータを使用すると、Fabric のすべての異なるサービスを使用できるようになりました。 たとえば、Spark での分析の実行、ノートブックの実行、データ エンジニアリング、Power BI レポートによる視覚化などです。 その後、Delta テーブルをあらゆる場所の Fabric で使用できるため、ユーザーは Fabric への移行を加速できます。

データマップ スキャンを構成する

データマップ スキャンを構成するには、スキャンするデータ ソースを登録する必要があります。

Fabric OneLake を登録する

Fabric ワークスペースをスキャンする場合、データ ソースとして Fabric テナントを登録するための既存のエクスペリエンスに変更はありません。 データ カタログに新しいデータ ソースを登録するには、次の手順に従います。

  • Microsoft Purview ガバナンス ポータルで Microsoft Purview アカウントに移動します。
  • 左側のナビゲーション ウィンドウで [データ マップ] を選択します。
  • [登録] を選択します
  • [ソースの登録] で、[Fabric] を選択します

セットアップ手順については、 同じテナントテナント間 を参照してください。

データマップ スキャンを設定する

Lakehouse subartifacts をスキャンする場合、Purview の既存のエクスペリエンスに変更を加えてスキャンを設定する必要はありません。 サポートされているファイル形式からスキーマ情報を抽出するために、ファブリック ワークスペースで少なくとも 共同作成者 ロールを持つスキャン資格情報を付与する別の手順があります。

現在、認証方法としてサポートされているのはサービス プリンシパルのみです。 MSI のサポートはバックログに残っています。 Lakehouse スキャン機能はプライベート プレビュー段階です。 テナントの一覧表示を許可するには、Microoft アカウント チームに問い合わせる必要があります。

セットアップ手順については、 同じテナントテナント間 を参照してください。

ファブリック レイクハウス スキャンの接続を設定する

fabric lakehouse をソースとして登録したら、登録済みのデータ ソースの一覧からファブリックを選択し、[ 新しいスキャン] を選択できます。 次のスクリーンショットで強調表示されている接続の詳細を追加します。

ファブリック スキャンのセットアップ。

  1. [資格情報] フィールドに SPN を追加する
  2. Azure リソース名を追加します。

fabric datamap スキャン ページ 1

  1. テナント ID の追加
  2. サービス プリンシパル ID の追加
  3. Key Vault接続を追加する
  4. シークレット名の追加

fabric datamap スキャン ページ 2

データ マップ スキャンが完了したら、Purview Data Catalogから lakehouse インスタンスを見つけます。

データ カタログの参照ファブリックレイクハウスを示すスクリーンショット

テーブル カテゴリを使用してレイクハウス テーブル を参照します。

データ カタログのファブリック レイクハウス テーブルの参照を示すスクリーンショット

Fabric Lakehouse データ品質スキャンの前提条件

  1. ショートカット、ミラー、またはデータをデルタ形式で Fabric lakehouse に読み込みます。

ファブリック デルタ テーブルを示すスクリーンショット。

重要

モローリングまたはショートカットを使用して新しいテーブル、ファイル、または新しいデータ セットを Fabric lakehouse に追加した場合は、データの品質評価のためにデータ資産をデータ製品に追加する前に、データマップ スコープ スキャンを実行して、それらの新しいデータ セットをカタログ化する必要があります。

  1. Purview MSI のワークスペースに共同作成者権限を付与する

共同作成者にアクセス権を付与する方法を示すスクリーンショット。

  1. スキャンされたデータ資産を lakehouse からガバナンス ドメインのデータ製品に追加します。 データ プロファイルと DQ スキャンは、ガバナンス ドメインのデータ製品に関連付けられているデータ資産に対してのみ実行できます。

データ製品に追加された lakehouse データ資産を示すスクリーンショット。

データ プロファイルとデータ品質スキャンの場合は、データ ソースを接続するために別のコネクタを使用し、データをスキャンしてデータ品質の事実とディメンションをキャプチャするため、データ ソース接続を作成する必要があります。 接続を設定するには:

  • [正常性管理] > [データ品質] > [ガバナンス ドメインの選択] > [管理] タブ > [接続の選択] に移動します。

  • [ + 新しい] タブ を選択して接続構成ページを開きます

  • 接続の追加 表示名と適切な説明

  • ソースの種類 Fabric の追加

  • テナント ID の追加

  • 資格情報の追加 - Microsoft Purview MSI

  • 接続をテストして、構成された接続が成功したことを確認します。

    ファブリック接続を設定する方法を示すスクリーンショット。

重要

  • DQ スキャンの場合、purview MSI は、Fabric ワークスペースを接続するために Fabric ワークスペースへの共同作成者アクセス権を持っている必要があります。 共同作成者のアクセス権を付与するには、ファブリック ワークスペースを開き> 3 つのドット (...) を選択>[ワークスペース アクセス] > [ユーザーまたはグループの追加] > [Purview MSI を共同作成者として追加する] を選択します
  • ファブリック テーブルはデルタ形式である必要があります。
  • Fabric Lakehouse DQ スキャン機能は プライベート プレビュー段階です。 この機能を使用するには、Microsoft accout チームまたはカスタマー サポート チームに問い合わせて、テナントのリスト登録を許可してください。 許可リストには、テナント ID、組織名、Purview アカウント名、Purview アカウント ID、Azure リージョン、Azure サブスクリプション ID の情報を指定する必要があります。

Fabric Lakehouse でのデータのプロファイリングとデータ品質 (DQ) スキャン

接続のセットアップが正常に完了したら、Fabric Lakehouse でデータのプロファイリング、作成、適用、データのデータ品質 (DQ) スキャンを実行できます。 以下で説明するステップバイステップのガイドラインに従ってください。

  1. キュレーション、検出、サブスクリプションのデータ製品に Lakehouse テーブルを関連付けます。 詳細については、ドキュメントに従ってください。データ製品を作成および管理する方法

レイクハウス テーブルとデータ製品の関連付けを示すスクリーンショット。

  1. プロファイルファブリックレイクハウステーブル。 詳細については、ドキュメントに従ってください。データのデータ プロファイルを構成して実行する方法

プロファイルにレイクハウス テーブルを示すスクリーンショット。

  1. Fabric Lakehouse テーブルのデータ品質を測定するために、データ品質スキャンを構成して実行します。 詳細については、「データ品質スキャンを構成して実行する方法」のドキュメントに従ってください

レイクハウス テーブルのスキャンを示すスクリーンショット。

重要

  • データが差分形式であることを確認します。
  • データ マップ スキャンが正常に実行されたことを確認します。実行されていない場合は、データ マップ スキャンを再実行します。

制限

ファブリック Lakehouse の Purview データ マップのサポートはプライベート プレビュー段階です。 Purview DQ を使用して Fabric Lakehouse テーブル DQ スキャンを有効にするには、Purview テナントを Purview データ マップと Fabric OneLake に許可する必要があります。 Fabric Lakehouse サポートのテナントの一覧を表示するには、Microsoft アカウント チームにお問い合わせください。

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

  • Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接 FQN である必要があります。
  • 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}

一貫性のある Parquet データセット スキーマを示すこれらの重要なシナリオの両方がサポートされています。 制限事項: Parquet ファイルを含むディレクトリの N 個の任意の階層に対して設計されていないか、サポートされません。 (1) または (2) 構築された構造でデータを提示するようにお客様にアドバイスします。 そのため、サポートされている Parquet 標準に従うか、 ACID 準拠のデルタ形式にデータを移行することをお勧めします。

ヒント

データ マップの場合

  • SPN にワークスペースのアクセス許可があることを確認します。
  • スキャン接続で SPN が使用されていることを確認します。
  • 初めてレイクハウススキャンを設定する場合は、フルスキャンを実行することをお勧めします。
  • 取り込まれた資産が更新または更新されたことを確認する

データ カタログ

  • DQ 接続では、MSI 資格情報を使用する必要があります。
  • Lakehouse データ DQ スキャンを初めてテストするための新しいデータ製品を作成するのが理想的です
  • 取り込まれたデータ資産を追加します。データ資産が更新チェック。
  • 実行プロファイルを試してください。成功した場合は、DQ ルールの実行を試してください。 成功しない場合は、資産スキーマ (スキーマ> スキーマ管理インポート スキーマ) を更新してみてください
  • 一部のユーザーは、すべてがゼロから機能チェックするために、新しい Lakehouse とサンプル データを作成する必要がありました。 場合によっては、以前にデータ マップに取り込まれた資産を操作すると、エクスペリエンスに一貫性がありません。

参照ドキュメント