Fabric Lakehouse データ資産のデータ品質

[アーティクル]
02/19/2025

Fabric OneLake は、organization全体の単一の統合された論理データレイクです。 Data Lake は、さまざまなソースからの大量のデータを処理します。 Microsoft OneDrive と同様に、OneLake はすべての Microsoft Fabric テナントに自動的に付属し、すべての分析データの単一の場所として設計されています。 OneLake では、次の顧客が提供されます。

organization全体の 1 つのデータレイク
複数の分析エンジンで使用するデータの 1 つのコピー

OneLake は、データの移動や複製を行わずに、データの 1 つのコピーから可能な限り最大限の価値を提供することを目的としています。データを別のエンジンで使用したり、サイロを分割したりするためにデータをコピーする必要がなくなり、他のソースのデータを使用してデータを分析できます。 Microsoft Purview を使用して、ファブリックデータ資産をカタログ化し、データ品質を測定して、改善アクションを管理および推進できます。

ショートカットを使用して、他のファイルの場所に格納されているデータを参照できます。これらのファイルの場所は、同じワークスペース内、または異なるワークスペース内、OneLake 内、または Azure Data Lake Storage (ADLS)、Amazon Web Services (AWS) S3、Dataverse の外部にあり、より多くのターゲットの場所が近日公開される予定です。データソースの場所はそれほど重要ではありません。OneLake ショートカットを使用すると、ファイルとフォルダーがローカルに保存されたように見えます。チームが個別のワークスペースで独立して作業する場合、ショートカットを使用すると、さまざまなビジネスグループやドメインのデータを仮想データ製品に結合して、ユーザー固有のニーズに合わせることができます。

ミラーリングを使用して、さまざまなソースのデータを Fabric に取り込むことができます。 Fabric でのミラーリングは、さまざまなシステムのデータを 1 つの分析プラットフォームにまとめるために、低コストで待機時間の短いソリューションです。 Azure SQL Database、Azure Cosmos DB、Snowflake からのデータなど、既存のデータ資産を Fabric の OneLake に直接継続的にレプリケートできます。 OneLake でクエリ可能な形式の最新のデータを使用すると、Fabric のすべての異なるサービスを使用できるようになりました。たとえば、Spark での分析の実行、ノートブックの実行、データエンジニアリング、Power BI レポートによる視覚化などです。その後、Delta テーブルをあらゆる場所の Fabric で使用できるため、ユーザーは Fabric への移行を加速できます。

Fabric OneLake を登録する

Data Map スキャンを構成するには、最初にスキャンするデータソースを登録する必要があります。 Fabric ワークスペースをスキャンするために、データソースとして Fabric テナントを登録するための既存のエクスペリエンスに変更はありません。新しいデータソースを登録するには、次の手順に従います。

Microsoft Purview ポータルで、[ データマップ] に移動します。
[登録] を選択します。
[ソース の登録 ] で、[ Fabric] を選択します。

同じテナントとテナント間のセットアップ手順を参照してください。

データマップスキャンを設定する

Lakehouse subartifacts をスキャンするために、データマップの既存のエクスペリエンスに変更を加えてスキャンを設定する必要はありません。サポートされているファイル形式からスキーマ情報を抽出するために、Fabric ワークスペースで少なくとも 共同作成者 ロールを持つスキャン資格情報を付与する別の手順があります。

現在、認証方法としてサポートされているのはサービスプリンシパルのみです。 MSI のサポートはバックログに残っています。

同じテナントとテナント間のセットアップ手順を参照してください。

Fabric Lakehouse スキャンの接続を設定する

Fabric Lakehouse をソースとして登録した後、Data Map で登録済みのデータソースの一覧から [Fabric] を選択し、[ 新しいスキャン] を選択できます。 データソース ID を追加し、次の手順に従います。

セキュリティグループとサービスプリンシパルを作成する
このサービスプリンシパルと Purview マネージド ID の両方をこのセキュリティグループに追加してから、このセキュリティグループを指定してください。
セキュリティグループを Fabric テナントに関連付ける
1. Fabric 管理ポータルにログインします。
2. [テナント設定] ページを選択します。 テナント設定ページを表示するには、Fabric 管理である必要があります。
3. [管理 API 設定] > [サービスプリンシパルが読み取り専用管理者 API を使用できるようにする] を選択します。
4. [特定のセキュリティグループ] を選択します。
5. [API 設定管理>詳細なメタデータを使用して管理 API 応答を強化する] と [DAX 式とマッシュアップ式を使用した管理者 API 応答の強化] を選択>スキャンの一部として Fabric データセットの詳細なメタデータMicrosoft Purview データマップ自動的に検出できるようにするトグルを有効にします。 Fabric テナントの管理 API 設定を更新した後、スキャンとテストの接続を登録するまで約 15 分待ちます。
このセキュリティグループ管理 API 設定の読み取り専用 API アクセス許可を指定します。
[資格情報] フィールドに SPN を追加します。
Azure リソース名を追加します。
テナント ID を追加します。
サービスプリンシパル ID を追加します。
接続Key Vault追加します。
シークレット名を追加します。

Data Map スキャンが完了したら、統合カタログで Lakehouse インスタンスを見つけます。

Microsoft Purview ポータルで、統合カタログを開きます。
[ 検出]、[ データ資産] の順に選択します。
[ データ資産 ] ページで、[ Microsoft Fabric] を選択します。
[ Fabric ワークスペース] を選択し、一覧からワークスペースを選択します。
ワークスペースのページで、[ アイテム名] の下にある Lakehouse インスタンスを見つけます。

Lakehouse テーブルを参照するには:

ワークスペースページで、項目名 [テーブル] を選択します。
[ アイテム名] の下に一覧表示されている Lakehouse テーブルアセットを選択します。
資産の詳細ページを表示して、スキーマ、系列、プロパティなどのメタデータを見つけます。

Fabric Lakehouse データ品質スキャンの前提条件

ショートカット、ミラー、またはデータを Delta 形式で Fabric Lakehouse に読み込みます。

重要

ミラーリングまたはショートカットを使用して新しいテーブル、ファイル、または新しいデータセットを Fabric Lakehouse に追加した場合は、データ品質評価のためにデータ資産をデータ製品に追加する前に、データマップスコープスキャンを実行して、それらの新しいデータセットをカタログ化する必要があります。

Purview MSI のワークスペースに共同作成者権限を付与する

スキャンされたデータ資産を Lakehouse からガバナンスドメインのデータ製品に追加します。統合カタログのデータ製品のページで、[データ資産] を見つけて、[データ資産の追加] を選択します。データプロファイルとデータ品質スキャンは、ガバナンスドメインのデータ製品に関連付けられているデータ資産に対してのみ実行できます。

データプロファイルとデータ品質スキャンの場合は、データソースの接続とデータ品質の事実とディメンションをキャプチャするためにデータをスキャンするためにさまざまなコネクタが使用されるため、データソース接続を作成する必要があります。接続を設定するには:

統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。
ガバナンスドメインを選択し、[管理] ドロップダウンリストから [Connections] を選択します。
[ 新規] を選択して接続構成ページを開きます。
接続の表示名と説明を追加します。
ソースの種類 Fabric を追加します。
テナント ID を追加します。
ワークスペース ID の追加
Lakehouse ID の追加
資格情報 - Microsoft Purview MSI を追加します。
接続をテストして、構成された接続が成功したことを確認します。

重要

データ品質スキャンの場合、Microsoft Purview MSI は、Fabric ワークスペースを接続するために Fabric ワークスペースへの共同作成者アクセス権を持っている必要があります。共同作成者へのアクセスを許可するには、Fabric ワークスペースを開き、3 つのドット (...) を選択し、[ ワークスペースアクセス] を選択し、[ ユーザーまたはグループを追加する] を選択してから、Purview MSI を 共同作成者として追加します。
ファブリックテーブルは、Delta 形式または Iceberg 形式である必要があります。

Fabric Lakehouse でのデータのプロファイリングとデータ品質 (DQ) スキャン

接続のセットアップが正常に完了したら、Fabric Lakehouse でデータのプロファイリング、作成、適用、データ品質 (DQ) スキャンを実行できます。以下で説明するステップバイステップのガイドラインに従ってください。

キュレーション、検出、サブスクリプションのデータ製品に Lakehouse テーブルを関連付けます。データ製品を作成および管理する方法について説明します。

Profile Fabric Lakehouse テーブル。データ資産のデータプロファイルを構成して実行する方法について説明します。

Fabric Lakehouse テーブルのデータ品質を測定するために、データ品質スキャンを構成して実行します。データ品質スキャンを構成して実行する方法について説明します。

重要

データが Delta 形式または Iceberg 形式であることを確認します。
データマップスキャンが正常に実行されたことを確認します。実行されなかった場合は、スキャンを再実行します。

制限事項

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

Parquet パーツファイルを含むディレクトリ。例: ./Sales/{Parquet Part Files}。完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接の FQN である必要があります。
年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

一貫性のある Parquet データセットスキーマを示すこれらの重要なシナリオの両方がサポートされています。制限事項: Parquet ファイルを含むディレクトリの N 個の任意の階層に対して設計されていないか、サポートされません。 (1) または (2) 構築された構造でデータを提示するようにお客様にアドバイスします。そのため、サポートされている Parquet 標準に従うか、 ACID 準拠のデルタ形式にデータを移行することをお勧めします。

ヒント

データマップの場合

SPN にワークスペースのアクセス許可があることを確認します。
スキャン接続で SPN が使用されていることを確認します。
初めて Lakehouse スキャンを設定する場合は、フルスキャンを実行することをお勧めします。
取り込まれた資産が更新または更新されたことを確認する

統合カタログ

DQ 接続では、MSI 資格情報を使用する必要があります。
Lakehouse データ DQ スキャンを初めてテストするための新しいデータ製品を作成するのが理想的です
取り込まれたデータ資産を追加し、データ資産が更新されることをチェックします。
実行プロファイルを試してください。成功した場合は、DQ ルールの実行を試してください。成功しない場合は、資産スキーマ (スキーマ> スキーマ管理インポートスキーマ) を更新してみてください
一部のユーザーは、すべてがゼロから機能チェックするために、新しい Lakehouse とサンプルデータを作成する必要がありました。場合によっては、Data Map で以前に取り込まれた資産を操作すると、エクスペリエンスの一貫性が保たれない場合があります。

次の方法で共有

Fabric Lakehouse データ資産のデータ品質

Fabric OneLake を登録する

データマップスキャンを設定する

Fabric Lakehouse スキャンの接続を設定する

Fabric Lakehouse データ品質スキャンの前提条件

Fabric Lakehouse でのデータのプロファイリングとデータ品質 (DQ) スキャン

制限事項

リソース

フィードバック

その他のリソース

次の方法で共有

Fabric Lakehouse データ資産のデータ品質

Fabric OneLake を登録する

データ マップ スキャンを設定する

Fabric Lakehouse スキャンの接続を設定する

Fabric Lakehouse データ品質スキャンの前提条件

Fabric Lakehouse でのデータのプロファイリングとデータ品質 (DQ) スキャン

制限事項

リソース

フィードバック

その他のリソース

データマップスキャンを設定する