クロス検証の式
生成したクロス検証レポートには、マイニング モデルの種類 (つまり、モデルの作成に使用したアルゴリズム)、予測可能な属性のデータ型、および予測可能な属性の値に応じて、モデルごとの精度のメジャーが含まれます。
このセクションでは、クロス検証レポートで使用されるメジャーを示し、計算の方法について説明します。
モデルの種類ごとの精度のメジャーの詳細については、「相互検証レポートのメジャー」を参照してください。
クロス検証のメジャーで使用される数式
注 |
---|
重要: これらの精度のメジャーは、対象の属性ごとに計算されます。 属性ごとに対象の値を指定または省略できます。 データ セット内のケースに対象の属性の値が含まれない場合、そのケースは、"不足値" と呼ばれる特殊な値が含まれるものと見なされます。 不足値のある行は、特定の対象の属性に対する精度のメジャーを計算するときにカウントされません。 スコアは属性ごとに個別に計算されるので、対象の属性に値があって他の属性に値がなくても、対象の属性のスコアには影響しません。 |
メジャー |
適用対象 |
実装 |
---|---|---|
真陽性 |
不連続属性、値を指定 |
以下の条件を満たしているケースの数です。
|
真陰性 |
不連続属性、値を指定 |
以下の条件を満たしているケースの数です。
|
偽陽性 |
不連続属性、値を指定 |
以下の条件を満たしているケースの数です。
|
偽陰性 |
不連続属性、値を指定 |
以下の条件を満たしているケースの数です。
|
合格/不合格 |
不連続属性、対象の指定なし |
以下の条件を満たしているケースの数です。
|
リフト |
不連続属性。 対象の値を指定できますが、必須ではありません。 |
対象の属性の値が含まれるすべての行の平均対数確率値。ここで、各ケースの対数確率値は Log(ActualProbability/MarginalProbability) として計算されます。 平均を計算するため、対数尤度の合計が入力データセットの行数で割られます。対象の属性の不足値がある行は除外されます。 Lift には正または負の値を指定できます。 正の値は、ランダムな推測を上回る効果的なモデルであることを示します。 |
Log score |
不連続属性。 対象の値を指定できますが、必須ではありません。 |
合計後に入力データセットの行数で割った、各ケースの実際の確率の対数。対象の属性の不足値がある行は除外されます。 確率は小数で表されるので、ログ スコアは常に負の数値になります。 0 に近いほど、良いスコアになります。 |
Case likelihood |
クラスター |
パーティション内のケースの数で割った、すべてのケースのクラスター可能性スコアの合計。対象の属性の不足値がある行は除外されます。 |
Mean absolute error |
連続属性 |
パーティション内のケースの数で割った、パーティションのすべてのケースの絶対誤差の合計。 |
Root mean square error |
連続属性 |
パーティションの平均 2 乗誤差の平方根。 |
Root mean squared error |
不連続属性。 対象の値を指定できますが、必須ではありません。 |
パーティション内のケースの数で割った、確率スコアの補数の 2 乗の平均の平方根。対象の属性の不足値がある行は除外されます。 |
Root mean squared error |
不連続属性、対象の指定なし |
パーティション内のケースの数で割った、確率スコアの補数の 2 乗の平均の平方根。対象の属性の不足値があるケースは除外されます。 |