次の方法で共有


クロス検証の式

生成したクロス検証レポートには、マイニング モデルの種類 (つまり、モデルの作成に使用したアルゴリズム)、予測可能な属性のデータ型、および予測可能な属性の値に応じて、モデルごとの精度のメジャーが含まれます。

このセクションでは、クロス検証レポートで使用されるメジャーを示し、計算の方法について説明します。

モデルの種類ごとの精度のメジャーの詳細については、「相互検証レポートのメジャー」を参照してください。

クロス検証のメジャーで使用される数式

注意

重要: これらの精度のメジャーは、対象の属性ごとに計算されます。 属性ごとに対象の値を指定または省略できます。 データ セット内のケースに対象の属性の値が含まれない場合、そのケースは、"不足値" と呼ばれる特殊な値が含まれるものと見なされます。 不足値のある行は、特定の対象の属性に対する精度のメジャーを計算するときにカウントされません。 スコアは属性ごとに個別に計算されるので、対象の属性に値があって他の属性に値がなくても、対象の属性のスコアには影響しません。

メジャー

適用対象

実装

真陽性

不連続属性、値を指定

以下の条件を満たしているケースの数です。

  • 対象の値がケースに含まれている。

  • 対象の値がケースに含まれていることがモデルで予測された。

真陰性

不連続属性、値を指定

以下の条件を満たしているケースの数です。

  • 対象の値がケースに含まれていない。

  • 対象の値がケースに含まれていないことがモデルで予測された。

偽陽性

不連続属性、値を指定

以下の条件を満たしているケースの数です。

  • 実際の値が対象の値と等しい。

  • 対象の値がケースに含まれていることがモデルで予測された。

偽陰性

不連続属性、値を指定

以下の条件を満たしているケースの数です。

  • 実際の値が対象の値と等しくない。

  • 対象の値がケースに含まれていないことがモデルで予測された。

合格/不合格

不連続属性、対象の指定なし

以下の条件を満たしているケースの数です。

  • 最も高い確率を持つ予測された状態が入力状態と同じであり、確率が [状態のしきい値] の値を超える場合は合格。

  • それ以外の場合は不合格。

リフト

不連続属性。 対象の値を指定できますが、必須ではありません。

対象の属性の値が含まれるすべての行の平均対数確率値。ここで、各ケースの対数確率値は Log(ActualProbability/MarginalProbability) として計算されます。 平均を計算するため、対数尤度の合計が入力データセットの行数で割られます。対象の属性の不足値がある行は除外されます。

Lift には正または負の値を指定できます。 正の値は、ランダムな推測を上回る効果的なモデルであることを示します。

Log score

不連続属性。 対象の値を指定できますが、必須ではありません。

合計後に入力データセットの行数で割った、各ケースの実際の確率の対数。対象の属性の不足値がある行は除外されます。

確率は小数で表されるので、ログ スコアは常に負の数値になります。 0 に近いほど、良いスコアになります。

Case likelihood

クラスター

パーティション内のケースの数で割った、すべてのケースのクラスター可能性スコアの合計。対象の属性の不足値がある行は除外されます。

Mean absolute error

連続属性

パーティション内のケースの数で割った、パーティションのすべてのケースの絶対誤差の合計。

Root mean square error

連続属性

パーティションの平均 2 乗誤差の平方根。

Root mean squared error

不連続属性。 対象の値を指定できますが、必須ではありません。

パーティション内のケースの数で割った、確率スコアの補数の 2 乗の平均の平方根。対象の属性の不足値がある行は除外されます。

Root mean squared error

不連続属性、対象の指定なし

パーティション内のケースの数で割った、確率スコアの補数の 2 乗の平均の平方根。対象の属性の不足値があるケースは除外されます。

関連項目

概念

テストおよび検証 (データ マイニング)

相互検証 (Analysis Services - データ マイニング)