次の方法で共有


[相互検証] タブ ([マイニング精度チャート] ビュー)

相互検証では、マイニング構造をセクションにパーティション分割し、それぞれのセクションに対してモデルのトレーニングとテストを反復的に実行できます。 データの分割先のフォールドをいくつか指定します。それぞれのフォールドは、順にテスト データとして使用されます。一方、残りのデータは、新しいモデルのトレーニングに使用されます。 その後、Analysis Services は、各モデルの標準精度メトリックのセットを生成します。 それぞれのセクションに対して生成されるモデルの基準を比較することで、データセット全体に対するマイニング モデルの信頼性を確認できます。

詳細については、「 クロス検証 (Analysis Services - データ マイニング)」を参照してください。

Note

クロス検証は、Microsoft タイム シリーズ アルゴリズムまたは Microsoft シーケンス クラスタリング アルゴリズムを使用して構築されたモデルでは使用できません。 これらの種類のモデルを含むマイニング構造に対してレポートを実行した場合、これらのモデルはレポートに含められません。

タスク一覧

  • フォールドの数を指定します。

  • 相互検証に使用するケースの最大数を指定します。

  • 予測可能列を指定します。

  • 必要に応じて、予測可能な状態を指定します。

  • 必要に応じて、予測の精度の評価方法を制御するパラメーターを設定します。

  • [結果の取得] をクリックして相互検証の結果を表示します。

UI 要素の一覧

フォールドカウント
作成するフォールド (パーティション) の数を指定します。 最小値は 2 です。この値は、データセットの半分をテスト用に、もう半分をトレーニング用に使用することを表します。

セッション マイニング構造の最大値は 10 です。

マイニング構造が Analysis Services のインスタンスに格納されている場合、最大値は 256 です。

Note

フォールドの数を増やすほど、クロス検証の実行に必要な時間もその分だけ長くなります。 ケースの数が多く、 [フォールド カウント] の値も大きい場合は、パフォーマンス上の問題が発生する可能性があります。

ケースの最大数
相互検証に使用するケースの最大数を指定します。 特定のフォールド内のケースの数は、 [ケースの最大数] の値を [フォールド カウント] の値で除算した結果と等しくなります。

0を指定した場合、ソース データ内のすべてのケースが相互検証に使用されます。

既定値はありません。

Note

ケースの数を増やすほど、処理時間も長くなります。

ターゲット属性
すべてのモデル内で検出された予測可能列の一覧から列を選択します。 相互検証を実行するごとに選択できる予測可能列は 1 つのみです。

クラスター モデルのみをテストするには、 [クラスター]を選択します。

ターゲットの状態
値を入力するか、または値のドロップダウン リストから対象の値を選択します。

既定値は null で、すべての状態をテストすることを示します。

クラスター モデルの場合は無効になります。

Target Threshold
予測確率を表す 0 ~ 1 の範囲の値を指定します。確率がこの値を超える場合、予測された状態は正しいと見なされます。 値は 0.1 単位で設定できます。

既定値は null です。この場合、最も確率の高い予測が正しいと見なされます。

Note

この値を 0.0 に設定することはできますが、その場合、処理時間が長くなるだけでなく、有意な結果も生成されません。

結果を取得する
クリックすると、指定したパラメーターを使用して、モデルの相互検証が開始されます。

モデルは指定した数のフォールドにパーティション分割され、フォールドごとに別個のモデルがテストされます。 したがって、相互検証の結果が返されるまでに時間がかかることがあります。

相互検証レポートに表示された結果の解釈方法の詳細については、「 相互検証レポートのメジャー」を参照してください。

精度のしきい値の設定

Target Threshold の値を設定することで、予測精度を測定するための標準を制御できます。 しきい値は、精度バーの種類を表します。 それぞれの予測に対して、予測される値が正しいと見なされる確率が割り当てられます。 したがって、 Target Threshold の値を 1 に近い値に設定した場合、特定の予測の確率を適切な予測としてカウントする必要があります。 逆に、 Target Threshold を 0 に近い値に設定すると、確率値が低い予測も "適切" な予測としてカウントされます。

予測の確率はデータの量や予測の種類に依存するので、推奨されるしきい値はありません。 異なる確率レベルの予測を調査したうえで、データに適した精度バーを決定する必要があります。 これを行うには、 Target Threshold に設定した値がモデルの測定精度に影響するためです。

たとえば、特定の対象の状態に対して 3 つの予測を作成し、それぞれの予測の確率が 0.05、0.15、および 0.8 であるとします。 ここで、しきい値を 0.5 に設定した場合、1 つの予測だけが正しい予測であると見なされます。 Target Threshold を 0.10 に設定すると、2 つの予測が正しいとカウントされます。

Target Threshold が既定値である null に設定されている場合、各ケースで最も可能性の高い予測が正しいとカウントされます。 前の例では、0.05、0.15、および 0.8 が、3 つの異なるケースの予測の確率です。 これらの値は大きく異なりますが、それぞれの予測はすべて正しいものと見なされます。なぜなら、それぞれのケースで生成された予測はそれぞれ 1 つであり、これらの予測はそのケースで最善の予測であるからです。

参照

テストと検証 (データ マイニング)
クロス検証 (Analysis Services - データ マイニング)
相互検証レポートのメジャー
データ マイニング ストアド プロシージャ (Analysis Services - データ マイニング)