データプロファイルタスクとビューアー

[アーティクル]
05/07/2013

データプロファイルタスクを使用すると、データの抽出、変換、および読み込みを行うプロセス内でデータのプロファイルを実行できます。データプロファイルタスクを使用することによって、次のような利点があります。

ソースデータをより効果的に分析できます。
ソースデータに関する理解を深めることができます。
データウェアハウスに読み込まれる前にデータ品質の問題を回避できます。

重要
データプロファイルタスクは、SQL Server に格納されているデータでのみ機能します。サードパーティまたはファイルベースのデータソースでは機能しません。

データプロファイルの概要

データ品質は、すべてのビジネスにとって重要です。企業はトランザクションシステム上に分析システムおよびビジネスインテリジェンスシステムを構築するので、主要業績評価指標とデータマイニング予測の信頼性は、基になるデータの有効性に完全に依存します。ただし、ビジネス上の意思決定における有効なデータの重要性は高まっていますが、このデータの有効性を確保することも難しくなっています。データはさまざまなシステムやソースおよび多くのユーザーから企業に絶えず流れ込んできています。

データ品質の基準はドメインまたはアプリケーションに固有であるため、定義が困難な場合があります。データ品質を定義する一般的な方法の 1 つとして、データのプロファイルが挙げられます。

データプロファイルは、次のようなデータに関する集計統計のコレクションです。

Customer テーブルの行数。
State 列の個別の値の数。
Zip 列の NULL 値または不足値の数。
City 列の値の分布。
Zip 列に対する State 列の機能依存の強さ。つまり、都道府県は特定の郵便番号の値に対して常に同じである必要があります。

データプロファイルに示される統計によって、ソースデータを使用することで生じる可能性がある品質の問題を効果的に最小限に抑えるために必要な情報を得ることができます。

Integration Services とデータプロファイル

Integration Services におけるデータのプロファイル処理は、次の手順で構成されています。

手順 1 : データプロファイルタスクの設定
データプロファイルタスクは、計算するプロファイルを構成するために使用するタスクです。データプロファイルタスクが含まれているパッケージを実行して、プロファイルを計算します。このタスクによって、XML 形式のプロファイル出力がファイルまたはパッケージ変数に保存されます。

詳細情報 : 「データプロファイルタスクのセットアップ」
手順 2 : データプロファイルタスクで計算されたプロファイルの確認
データプロファイルタスクで計算されたデータプロファイルを表示するには、出力をファイルに送信して Data Profile Viewer を使用します。このビューアーは、サマリ形式とオプションのドリルダウン機能を使用した詳細形式の両方でプロファイル出力を表示するスタンドアロンのユーティリティです。

詳細情報: 「Data Profile Viewer」

データプロファイルワークフローへの条件ロジックの追加

データプロファイルタスクには、プロファイルの出力に基づいてこのタスクを下流のタスクに接続するための条件ロジックを使用できるようにする機能が組み込まれていません。ただし、スクリプトタスクで少量のプログラミングを行って、このロジックを簡単に追加することができます。たとえば、スクリプトタスクでは、データプロファイルタスクの出力ファイルに対して XPath クエリを実行できます。このクエリによって、特定の列の NULL 値の比率が特定のしきい値を超えていないかどうかを判断できます。比率がしきい値を超えている場合は、パッケージを中断し、ソースデータの問題を解決してから続行することができます。詳細については、「パッケージワークフローでデータプロファイルタスクを使用する」を参照してください。

次の方法で共有

データプロファイルタスクとビューアー

データプロファイルの概要

Integration Services とデータプロファイル

データプロファイルワークフローへの条件ロジックの追加

関連コンテンツ

その他のリソース

次の方法で共有

データ プロファイル タスクとビューアー

データ プロファイルの概要

Integration Services とデータ プロファイル

データ プロファイル ワークフローへの条件ロジックの追加

関連コンテンツ

その他のリソース

データプロファイルタスクとビューアー

データプロファイルの概要

Integration Services とデータプロファイル

データプロファイルワークフローへの条件ロジックの追加