モデルのテストデータへのフィルターの適用

[アーティクル]
07/30/2013

モデルのテストに使用する外部データソースを指定する場合に、入力データを制限するフィルターを必要に応じて適用できます。たとえば、特定の所得範囲の顧客に関する予測についてのみモデルをテストできます。

たとえば、AdventureWorks の絞り込みメール配信シナリオでは、テストデータを含み、所得範囲によってテストケースを制限する ProspectiveBuyer テーブルに対して、次のようなフィルター式を作成できます。

[YearlyIncome] = '50000'

フィルターの動作は、モデルトレーニングデータとテストデータセットのどちらをフィルター選択するかによって若干異なります。

テストデータセットに対するフィルターを定義する場合は、入力されるデータに対する WHERE 句を作成します。モデルの評価に使用する入力データセットに対するフィルター処理では、グラフの作成時にフィルター式が Transact-SQL ステートメントに変換され、入力テーブルに適用されます。その結果として、テストケースの数を大幅に少なくすることができます。
マイニングモデルに対してフィルターを適用する場合、作成したフィルター式はデータマイニング拡張機能 (DMX) ステートメントに変換された後、個々のモデルに適用されます。したがって、フィルターをモデルに適用すると、モデルをトレーニングするのに元のデータのサブセットのみが使用されます。このオプションは、モデルが特定のデータセットに対して調整されるようにトレーニングモデルを 1 つの条件セットでフィルター選択して、さらに別の条件セットでモデルをテストする場合に問題を引き起こすことがあります。
構造を作成するときにテストデータセットを定義した場合、トレーニングに使用されるモデルケースには、マイニング構造のトレーニングセット内にあり、かつフィルターの条件を満たすケースのみが含まれます。このため、モデルをテストするときに [マイニングモデルのテストケースを使用する] オプションを選択した場合、テスト用ケースには、マイニング構造のテストセット内にあり、かつフィルターの条件を満たすケースのみが含まれます。ただし、予約データセットを定義しなかった場合、テスト用のモデルケースには、フィルター条件を満たすデータセット内のすべてのケースが含まれます。
モデルに適用するフィルター条件は、モデルケースに対するドリルスルークエリにも影響します。

要するに、複数のモデルをテストする場合は、すべてのモデルが同じマイニング構造に基づく場合でも、モデルがトレーニングとテストにデータの異なるサブセットを使用する可能性があることに注意する必要があります。これは、精度チャートに対して次の影響を与えることがあります。

テストセット内のケースの総数が、テストされるモデル間で異なる場合があります。
モデルでトレーニングデータまたはテストデータの異なるサブセットが使用される場合、チャート内で各モデルの割合が揃わないことがあります。

結果に影響する可能性のある定義済みのフィルターがモデルに含まれるかどうかを確認するには、[プロパティ] ペインで [Filter] プロパティを探すか、データマイニングスキーマ行セットを使用してモデルをクエリします。たとえば、次のクエリは指定したモデルのフィルターテキストを返します。

SELECT [FILTER] FROM $system.DMSCHEMA_MINING_MODELS WHERE MODEL_NAME = 'name of model’

注意
既存のマイニングモデルからフィルターを削除する場合や、フィルター条件を変更する場合は、マイニングモデルを再処理する必要があります。

適用できるフィルターの種類の詳細や、フィルター式がどのように評価されるかについては、「モデルフィルターの構文と例 (Analysis Services - データマイニング)」を参照してください。

外部テストデータに対するフィルターの作成

テストするモデルを含むマイニング構造をダブルクリックして、データマイニングデザイナーを開きます。
[マイニング精度チャート] タブを選択し、次に [入力の選択] タブを選択します。
[入力の選択] タブの [精度チャートに使用するデータセットの選択] で、[別のデータセットを指定する] を選択します。
参照ボタン ([...]) をクリックしてダイアログボックスを開き、外部データセットを選択します。
ケーステーブルを選択し、入れ子になったテーブルを必要に応じて追加します。必要に応じてモデルの列を外部データセットの列にマップします。 [列マッピングの指定] ダイアログボックスを閉じてソーステーブルの定義を保存します。
データセットのフィルターを定義するには、[フィルターエディターを開く] をクリックします。

[データセットフィルター] ダイアログボックスが開きます。入れ子になったテーブルが構造に含まれている場合は、2 つの部分から成るフィルターを作成できます。まず、ケーステーブルの条件を [データセットフィルター] ダイアログボックスで設定し、次に、入れ子になった行の条件を [フィルター] ダイアログボックスで設定します。
[データセットフィルター] ダイアログボックスで、[マイニング構造列] の下のグリッドの先頭行をクリックし、一覧からテーブルまたは列を選択します。

データソースビューに複数のテーブルが含まれているか、入れ子になったテーブルが含まれている場合は、テーブル名を先に選択する必要があります。それ以外の場合は、ケーステーブルから列を直接選択できます。

フィルター選択する各列に新しい行を追加します。
[演算子] 列と [値] 列を使用して、列をフィルター選択する方法を定義します。

注値は、引用符を使用せずに入力してください。
[ルールの適用条件] ボックスをクリックして論理演算子を選択し、複数の条件を結合する方法を定義します。
必要に応じて、[値] ボックスの右側にある参照ボタン ([ ]) をクリックして [フィルター] ダイアログボックスを開き、入れ子になったテーブルまたは個々のケーステーブル列の条件を設定します。
[式] ペインに表示されるテキストで、完成したフィルター条件が適切であることを確認します。
[OK] をクリックします。

フィルター条件は、精度チャートの作成時にデータソースに適用されます。

次の方法で共有

モデルのテストデータへのフィルターの適用

外部テストデータに対するフィルターの作成

関連項目

タスク

概念

その他のリソース

次の方法で共有

モデルのテスト データへのフィルターの適用

外部テスト データに対するフィルターの作成

関連項目

タスク

概念

その他のリソース

モデルのテストデータへのフィルターの適用

外部テストデータに対するフィルターの作成