参照データ (外部) のナレッジを使用したデータのクレンジング
このトピックでは、参照データ プロバイダーから提供されるナレッジを使用してデータをクレンジングする方法について説明します。 クレンジング アクティビティを実行する手順は、参照データ プロバイダーから提供されるナレッジを使用してデータをクレンジングする場合も「DQS (内部) ナレッジを使用したデータのクレンジング」で説明した手順とすべて同じですが、このトピックでは、Data Quality Services (DQS) での参照データ サービスを使用したデータ クレンジングに固有の情報を示します。
DQS の参照データ サービス機能を使用してデータをクレンジングする場合、DQS のクレンジング プロセスで、マップされたドメイン値がバッチ要求として参照データ サービス プロバイダーに送信されます。 参照データ サービスから、次の情報を含む応答が返されます。
修正案
信頼度
マップされたドメインに関する追加情報。 参照データでは、この追加データを使用してソースを標準化、解析、または強化することもできます。 この情報は応答の追加フィールドに記載されています。
参照データ サービスから応答を受け取った後、DQS のクレンジング アクティビティで次の処理が行われます。
ドメインを参照データ サービスにマップするときに指定した [自動修正しきい値] と [最小信頼度] の値に基づいて、ドメイン値が信頼レベルに応じて自動的に修正または提案されます。
注 参照データ サービスのナレッジを使用してデータをクレンジングするときは、[全般設定] タブの [構成] セクションで指定したしきい値ではなく、参照データ サービスにドメインをマップするときに指定したしきい値が適用されます。 参照データのクレンジングのしきい値の指定については、「参照データへのドメインと複合ドメインのアタッチ」の手順 9. を参照してください。
ドメイン値が "提案"、"新規"、"無効"、"修正済み"、および "適切" に分類されます。
追加データがソースに追加され、クレンジングされたデータと一緒に情報をエクスポートできるようになります。
このトピックの内容
作業を開始する準備:
前提条件
セキュリティ
参照データのナレッジを使用したデータのクレンジング
作業を開始する準備
前提条件
DQS のナレッジ ベース内の必要なドメインを適切な参照データ サービスにマップしておく必要があります。 また、クレンジングするデータの種類に関するナレッジがナレッジ ベースに含まれている必要があります。 たとえば、米国の住所が格納されたソース データをクレンジングする場合は、米国の住所に関する高品質データを提供する参照データ サービス プロバイダーにドメインをマップする必要があります。 詳細については、「参照データへのドメインと複合ドメインのアタッチ」を参照してください。
セキュリティ
権限
データ クレンジングを実行するには、DQS_MAIN データベースの dqs_kb_editor ロールまたは dqs_kb_operator ロールが必要です。
[先頭に戻る]
参照データのナレッジを使用したデータのクレンジング
このトピックでは、引き続き、前のトピック「参照データへのドメインと複合ドメインのアタッチ」で Windows Azure Marketplace の Melissa Data サービスにマップしたドメインを例として使用します。 ここでは、同じドメインを使用して、いくつかのサンプルの米国の住所をクレンジングします。 データをクレンジングする手順は、「DQS (内部) ナレッジを使用したデータのクレンジング」で説明した手順と同じですが、 処理中に注意が必要な箇所には説明を補足しています。
データ品質プロジェクトを作成し、[クレンジング] アクティビティを選択します。 「データ品質プロジェクトの作成」を参照してください。
[マップ] ページで、Address Line、City、State、および Zip の 4 つのドメインをソース データの適切な列にマップします。 [次へ] をクリックします。
注 Address Verification 複合ドメイン内の 4 つのドメインをすべてマップしているため、データ クレンジングは、個々のドメイン レベルではなく、複合ドメイン レベルで実行されます。
[最適化] ページで、[開始] をクリックしてコンピューター支援型のクレンジング プロセスを実行します。 クレンジング プロセスが完了したら、[次へ] をクリックします。
注 [最適化] ページには、参照データ サービスにアタッチされているドメインに関する情報が次の 2 とおりの方法で表示されます。
[開始] ボタンの下に、"ドメイン <Domain1>、<Domain2>、... <DomainN> を参照データ サービス プロバイダーを使用してクレンジングします" というメッセージが表示されます。この例の場合、"ドメイン Address Verification を参照データ サービス プロバイダーを使用してクレンジングします" と表示されます。
参照データ サービス プロバイダーにアタッチされているドメインに対して、[プロファイラー] 領域にアイコン が表示されます。 この例の場合、Address Verification 複合ドメインに対してこのアイコンが表示されます。
[結果の管理と表示] ページで、ドメイン値を確認します。 参照データ サービスでは、値に対する提案が複数ある場合、参照データ サービスにドメインをマップするときに [提案された候補] ボックスで指定した提案の最大数に応じて表示できます。 たとえば、次の米国の住所に対しては 2 つの提案が表示されます。
元の値
提案される値
Address Line
City
State
Zip
1 msft way
Redmond
98052
Address Line
City
State
Zip
1 Microsoft Way
Redmond
WA
98052
PO Box 1
Redmond
WA
98073
注 複合ドメインについては、さらに、コンピューター支援型のクレンジング プロセスで修正された個々のドメインが別の色で強調表示されます。 たとえば、この例では、Address Line ドメインと State ドメインが修正されているため、それらのドメインがシアンで強調表示されます。
すべてのドメイン値の確認が完了したら、[次へ] をクリックしてデータをエクスポートします。
[エクスポート] ページに、各ドメインのクレンジング アクティビティに関する通常の情報 (ソース、理由、信頼度、およびステータス) に加え、住所データに関して Melissa Data 参照データ サービスから提供された追加の情報が表示されます。これには、住所の経度と緯度、郡の名前、住所タイプ (高層ビルや番地) などが含まれます。
目的のエクスポート先 (SQL Server、CSV、または Excel) にデータをエクスポートし、[完了] をクリックしてプロジェクトを閉じます。
重要 Excel の 64 ビット版を使用している場合、クレンジングされたデータは Excel ファイルにエクスポートできません。SQL Server データベースまたは .csv ファイルにのみエクスポートできます。
[先頭に戻る]