データ プロファイル タスクとビューアー
適用対象: SQL Server Azure Data Factory の SSIS 統合ランタイム
データ プロファイル タスクを使用すると、データの抽出、変換、および読み込みを行うプロセス内でデータのプロファイルを実行できます。 データ プロファイル タスクを使用することによって、次のような利点があります。
ソース データをより効果的に分析できます。
ソース データに関する理解を深めることができます。
データ ウェアハウスに読み込まれる前にデータ品質の問題を回避できます。
重要
データ プロファイル タスクは、 SQL Serverに格納されているデータでのみ機能します。 サードパーティまたはファイル ベースのデータ ソースでは機能しません。
データ プロファイルの概要
データ品質は、すべてのビジネスにとって重要です。 企業はトランザクション システム上に分析システムおよびビジネス インテリジェンス システムを構築するので、主要業績評価指標とデータ マイニング予測の信頼性は、基になるデータの有効性に完全に依存します。 ただし、ビジネス上の意思決定における有効なデータの重要性は高まっていますが、このデータの有効性を確保することも難しくなっています。 データはさまざまなシステムやソースおよび多くのユーザーから企業に絶えず流れ込んできています。
データ品質の基準はドメインまたはアプリケーションに固有であるため、定義が困難な場合があります。 データ品質を定義する一般的な方法の 1 つとして、データのプロファイルが挙げられます。
データ プロファイルは、次のようなデータに関する集計統計のコレクションです。
Customer テーブルの行数。
State 列の個別の値の数。
Zip 列の NULL 値または不足値の数。
City 列の値の分布。
Zip 列に対する State 列の機能依存の強さ。つまり、都道府県は特定の郵便番号の値に対して常に同じである必要があります。
データ プロファイルに示される統計によって、ソース データを使用することで生じる可能性がある品質の問題を効果的に最小限に抑えるために必要な情報を得ることができます。
Integration Services とデータ プロファイル
Integration Servicesにおけるデータのプロファイル処理は、次の手順で構成されています。
手順 1 : データ プロファイル タスクの設定
データ プロファイル タスクは、計算するプロファイルを構成するために使用するタスクです。 データ プロファイル タスクが含まれているパッケージを実行して、プロファイルを計算します。 このタスクによって、XML 形式のプロファイル出力がファイルまたはパッケージ変数に保存されます。
詳細情報: データ プロファイル タスクのセットアップ
手順 2 : データ プロファイル タスクで計算されたプロファイルの確認
データ プロファイル タスクで計算されたデータ プロファイルを表示するには、出力をファイルに送信して Data Profile Viewer を使用します。 このビューアーは、サマリ形式とオプションのドリル ダウン機能を使用した詳細形式の両方でプロファイル出力を表示するスタンドアロンのユーティリティです。
詳細情報: Data Profile Viewer
データ プロファイル ワークフローへの条件ロジックの追加
データ プロファイル タスクには、プロファイルの出力に基づいてこのタスクを下流のタスクに接続するための条件ロジックを使用できるようにする機能が組み込まれていません。 ただし、スクリプト タスクで少量のプログラミングを行って、このロジックを簡単に追加することができます。 たとえば、スクリプト タスクでは、データ プロファイル タスクの出力ファイルに対して XPath クエリを実行できます。 このクエリによって、特定の列の NULL 値の比率が特定のしきい値を超えていないかどうかを判断できます。 比率がしきい値を超えている場合は、パッケージを中断し、ソース データの問題を解決してから続行することができます。 詳細については、「 パッケージ ワークフローでデータ プロファイル タスクを使用する」をご覧ください。