Azure Data Catalog でデータ ソースをデータ プロファイリングする方法
重要
Azure Data Catalog は、2024 年 5 月 15 日に廃止されました。
データ カタログ機能については、Microsoft Purview サービスを使用してください。データ資産全体に対する一元化されたデータ ガバナンスが得られます。
はじめに
Microsoft Azure Data Catalog は、フル マネージドのクラウド サービスであり、エンタープライズ データ ソースの登録のシステムと検出のシステムとして機能します。 つまり、 Azure Data Catalog を使用すると、ユーザーはデータ ソースを検出、理解、使用でき、組織は既存のデータからより多くの価値を引き出すことができます。 データ ソースが Azure Data Catalog に登録されると、そのメタデータはサービスによってコピーされてインデックスが付けられます。ただし、これで終わりではありません。
Azure Data Catalog のデータのプロファイリング機能は、カタログでサポートされているデータ ソースからのデータを分析し、そのデータに関する統計と情報を収集します。 データ資産のプロファイルは簡単に追加できます。 データ資産を登録する際に、データ ソース登録ツールで [データ プロファイルを含める] を選択してください。
データのプロファイリングとは
データのプロファイリングとは、登録されているデータ ソース内のデータを分析し、そのデータに関する統計と情報を収集する処理です。 これらの統計情報は、データ ソースの検出時に、ビジネス上の問題解決に向けたデータの適合性を判断する際に役立てることができます。
データのプロファイリングは、次のデータ ソースでサポートされます。
- SQL Server (Azure SQL DB と Azure Synapse Analytics 含む) のテーブルとビュー
- Oracle のテーブルとビュー
- Teradata のテーブルとビュー
- Hive のテーブル
データ資産の登録時にデータ プロファイルを含めることで、データ ソースについて次の点が明らかになります。
- ビジネス上の問題解決に利用できるか。
- データが特定の標準やパターンに従っているか。
- データ ソースの不規則性。
- データをアプリケーションに統合するうえでどのような課題が考えられるか。
Note
アプリケーションに対してどのようにデータを統合するかについて記述するドキュメントを資産に追加することもできます。 データ ソースの文書化の方法を参照してください。
データ ソースの登録時にデータ プロファイルを含める方法
データ ソースのプロファイルは簡単に追加できます。 データ ソースを登録するときに、データ ソース登録ツールの [登録されるオブジェクト] パネルで [データ プロファイルを含める] を選択します。
データ ソースを登録する方法の詳細については、「データ ソースの登録方法」と「Azure Data Catalog の概要」を参照してください。
データ プロファイルを含んだデータ資産をフィルターで抽出する
データ プロファイルを含んだデータ資産を検出するために、検索語の 1 つとして has:tableDataProfiles
または has:columnsDataProfiles
を追加できます。
Note
データソース登録ツールで [データ プロファイルを含める] を選択すると、テーブル レベルと列レベルのプロファイル情報の両方が含まれます。 ただし、Data Catalog API では、1 つのプロファイル情報セットのみを含むデータ資産を登録できます。
データ プロファイル情報の表示
プロファイルを含んだ適切なデータ ソースが見つかったら、そのデータ プロファイルの詳細を表示できます。 データ プロファイルを表示するには、[Data Catalog ポータル] ウィンドウでデータ資産を選択し、 [データ プロファイル] を選択します。
Azure Data Catalog のデータ プロファイルに、テーブルと列のプロファイル情報が表示されます。それぞれ表示される情報は以下のとおりです。
オブジェクト データ プロファイル
- 行数
- テーブルのサイズ
- オブジェクトが最後に更新されたのはいつか
列データ プロファイル
- 列のデータ型
- 個別の値の数
- NULL 値を含んだ行の数
- 列の値の最小、最大、平均、標準偏差
まとめ
登録されているデータ資産についての統計と情報は、データのプロファイリングを通じて得ることができます。ユーザーはそれを基に、ビジネス上の問題解決に向けたデータの適合性を判断することができます。 データ プロファイルは、データ ソースの注釈付けや文書化と共に、データについての理解を深める手段となります。