クロス検証 (SQL Server データ マイニング アドイン)
クロス検証は標準の分析ツールであり、データ マイニング モデルの開発と微調整に役立つ重要な機能です。 マイニング モデルを作成した後に、クロス検証を使用してモデルの有効性を確認し、結果を他の関連マイニング モデルと比較します。
クロス検証は、トレーニングとレポート生成の 2 つのフェーズから構成されます。 次の手順を完了します。
対象のマイニング構造またはマイニング モデルを選択します。
対象の値を指定します (該当する場合)。
構造データをパーティション分割する断面 ( フォールド) の数を指定します。
次に 、クロス検証 ウィザードによって、各フォールドに新しいモデルが作成され、他のフォールドでモデルがテストされ、モデルの精度が報告されます。 完了すると、 クロス検証 ウィザードによってレポートが作成され、各フォールドのメトリックが表示され、モデルの概要が集計されます。 この情報を使用して、基になるデータがモデルにどの程度適しているかを判断したり、同じデータで作成した異なるモデルを比較したりすることができます。
クロス検証ウィザードの使用
Analysis Services のインスタンスに格納されている一時モデルとモデルの両方に対してクロス検証を使用できます。
クロス検証レポートを作成するには
[データ マイニング] リボンの [精度と検証] グループで、[クロス検証] をクリックします。
[ 構造またはモデルの選択 ] ダイアログ ボックスで、既存のマイニング構造またはマイニング モデルを選択します。 構造を選択した場合、予測可能な属性が同じである構造を基準にしている、すべてのモデルに対してクロス検証が使用されます。 モデルを選択した場合、そのモデルに対してのみクロス検証が使用されます。
[ クロス検証パラメーターの指定 ] ダイアログ ボックスの [ フォールドカウント ] ボックスで、データ セットを分割するフォールドの数を選択します。 分割は、ランダムに選択されるデータ セクションです。
必要に応じて、[最大行数] テキスト ボックスに数値を入力して、クロス検証で使用する 行の最大数 を設定します。
Note
使用する行数が多いほど結果は正確になりますが、 処理時間も大幅に長くなる可能性があります。 選択する数は使用するデータによって異なりますが、一般的にはパフォーマンスを維持できる範囲の最大数を選択します。 パフォーマンスを向上させるために、指定する分割数を少なくする方法もあります。
[ ターゲット属性 ] ドロップダウン リストから列を選択します。 一覧には、最初にモデルを作成したときに予測可能な属性として構成した列のみが表示されます。 モデルには複数の予測可能な属性を含めることができますが、選択できるのは 1 つだけです。
[ ターゲットの状態 ] ドロップダウン リストから値を選択します。
予測可能列に連続する数値データが含まれている場合は、このオプションは使用できません。
必要に応じて、予測を正確にカウントする際に ターゲットしきい値 として使用する値を指定します。 この値は、確率を示す 0 ~ 1 の範囲の数値で表されます。1 は予測が必ず正確であることを示し、0 は予測が正しくなる可能性がないことを示し、.5 はランダムな推測と同じであることを示します。
予測可能列に連続する数値データが含まれている場合は、このオプションは使用できません。
[完了] をクリックします。 クロス検証という名前の新しいワークシートが作成されます。
Note
Microsoft Excel は、モデルがパーティション分割されて各分割がテストされている間、一時的に応答しなくなることがあります。
要件
クロス検証レポートを作成するには、データ マイニング構造と関連モデルを作成しておく必要があります。 ウィザードでは、ダイアログ ボックスを使用して既存の構造およびモデルから選択できます。
複数のマイニング モデルをサポートするマイニング構造を選択した場合、それらのモデルで異なる予測可能な属性が使用されていると、クロス検証ウィザードでは、同一の予測可能な属性を共有するモデルのみがテストされます。
クラスター モデルとその他の種類のモデルの両方をサポートする構造を選択した場合、クラスター モデルはテストされません。
クロス検証の結果について
クロス検証の結果は、属性名>として [クロス検証レポート] というタイトルの新しいワークシートに<表示されます。 新しいワークシートは複数のセクションで構成されます。最初のセクションには、どのモデルまたは構造に対する結果なのかがわかるように、テストされたモデルに関する重要なメタデータを示す概要が表示されます。
レポートの 2 番目のセクションには、元のモデルがどの程度適切かを示す統計的な概要が表示されます。 この概要では、各フォールドに対して作成されたモデル間の違いを、3 つの主要なメジャー ( 平方根平均平方誤差、 平均絶対誤差、 ログ スコア) について分析します。 これらは、データ マイニングだけでなく各種の統計分析で一般的に使用される標準的な統計的尺度です。
それぞれのメジャーについて、モデル全体の平均と標準偏差がクロス検証ウィザードによって計算されます。 これにより、異なるデータ サブセットに基づいて予測を行った場合にモデルの一貫性がわかります。 たとえば、標準偏差が非常に大きい場合、分割ごとに作成されたモデルの結果が大きく異なることを示すため、モデルが特定のデータのグループに対して非常に密接にトレーニングされていて他のデータ セットには適用できない可能性があることがわかります。
次のセクションでは、モデルの評価に使用されるメジャーについて説明します。
テストとメジャー
ワークシートには、データ内の分割数や各分割内のデータの量に関するいくつかの基本情報に加えて、各モデルに関する一連の基準がテストの種類別に表示されます。 たとえば、クラスター モデルの精度は、予測モデルに使用するテストとは異なるテストで評価されます。
次の表に、テスト、基準、およびその説明を示します。
集計と一般的な統計的尺度
レポートに示される集計メジャーは、データ内に作成した分割が相互にどのように異なるかを示します。
平均と標準偏差。
モデル内のすべてのパーティションを対象とした、特定メジャーの平均値に基づく偏差の平均。
分類 : 合格/不合格
このメジャーは、予測可能な属性に対象の値を指定していない場合に分類モデルで使用されます。 たとえば、複数の確率を予測するモデルを作成した場合、このメジャーは可能なすべての値の予測におけるモデルの精度を示します。
成功/失敗は、次の条件を満たすケースのカウントによって計算されます。最も高い確率の予測状態が入力状態と同じで、確率が状態しきい値に指定した値より大きい場合は pass。それ以外の場合は失敗します。
分類 : 真陽性、偽陽性、真陰性、偽陰性
このテストは、指定した対象を持つすべての分類モデルに対して使用されます。 このメジャーは、モデルで予測した対象と実際の結果に応じて、各ケースの分類方法を示します。
メジャー | 説明 |
---|---|
真陽性 | 以下の条件を満たしているケースの数です。 対象の値がケースに含まれている。 対象の値がケースに含まれていることがモデルで予測された。 |
偽陽性 | 以下の条件を満たしているケースの数です。 実際の値が対象の値と等しい。 対象の値がケースに含まれていることがモデルで予測された。 |
真陰性 | 以下の条件を満たしているケースの数です。 対象の値がケースに含まれていない。 対象の値がケースに含まれていないことがモデルで予測された。 |
偽陰性 | 以下の条件を満たしているケースの数です。 実際の値が対象の値と等しくない。 対象の値がケースに含まれていないことがモデルで予測された。 |
リフト
リフト は、可能性に関連するメジャーです。 ランダムな推測を行う場合よりも、モデルを使用する場合に結果の可能性が高い場合、モデルは 肯定的なリフトを提供すると言われます。 ただし、モデルがランダムな確率よりも可能性の低い予測を行う場合、リフト スコアは 負の値になります。 したがって、この基準は、モデルを使用することによってどの程度の改善を実現できるかを示しており、スコアが高いほど改善できることになります。
リフトは、実際の予測確率対テスト ケースの周辺確率の比として計算されます。
ログ スコア
予測の対数尤度スコアとも呼ばれるログ スコアは、対数スケールに変換された 2 つの確率の比率を表します。 確率は小数で表されるので、ログ スコアは常に負の数値になります。 0 に近いほど、良いスコアになります。
生のスコアが非常に不規則な分布またはゆがんだ分布を持つのに対し、ログ スコアは割合に似ています。
2 乗平均平方根誤差
平方根平均二乗誤差 (RMSE) は、さまざまなデータ セットがどのように比較されるかを調べ、入力のスケールによって生じ得る違いを平滑化するための統計の標準的な方法です。
RMSE は、実際の値と比較した場合の予測値の平均誤差を表します。 パーティション内のケースの数で割った、すべてのパーティション ケースの平均誤差の平方根として計算されます。対象の属性の不足値がある行は除外されます。
平均絶対誤差
平均絶対誤差は、実際の値に対する予測値の平均誤差です。 誤差の絶対合計を取得し、それらの誤差の平均を求めることによって計算されます。
この値により、スコアが平均とどの程度異なるかがわかります。
ケースの確率値
このメジャーは、クラスター モデルに対してのみ使用され、新しいケースが特定のクラスターに属する確率を示します。
クラスター モデルには、モデルの作成に使用した方法に応じて 2 種類のクラスター メンバーシップがあります。 一部のモデルでは、K-Means アルゴリズムに基づいて、新しいケースは 1 つのクラスターのみに属すると予想されます。 ただし、Microsoft クラスタリング アルゴリズムでは既定で Expectation Maximization 手法が使用され、この手法では新しいケースが任意のクラスターに属する可能性があることも想定されます。 したがって、これらのモデルではケースに複数の CaseLikelihood
値が含まれる可能性がありますが、既定で報告されるのは、新しいケースに最も適合するクラスターに属するケースの確率値になります。