クロス検証の式
生成したクロス検証レポートには、マイニング モデルの種類 (つまり、モデルの作成に使用したアルゴリズム)、予測可能な属性のデータ型、および予測可能な属性の値に応じて、モデルごとの精度のメジャーが含まれます。
このセクションでは、クロス検証レポートで使用されるメジャーを示し、計算の方法について説明します。
モデルの種類ごとの精度のメジャーについて詳しくは、「 相互検証レポートのメジャー」をご覧ください。
クロス検証のメジャーで使用される数式
注意
重要: これらの精度のメジャーは、対象の属性ごとに計算されます。 属性ごとに対象の値を指定または省略できます。 データ セット内のケースに対象の属性の値が含まれない場合、そのケースは、" 不足値" と呼ばれる特殊な値が含まれるものと見なされます。 不足値のある行は、特定の対象の属性に対する精度のメジャーを計算するときにカウントされません。 スコアは属性ごとに個別に計算されるので、対象の属性に値があって他の属性に値がなくても、対象の属性のスコアには影響しません。
メジャー | 適用対象 | 実装 |
---|---|---|
真陽性 | 不連続属性、値を指定 | 以下の条件を満たしているケースの数です。 対象の値がケースに含まれている。 対象の値がケースに含まれていることがモデルで予測された。 |
真陰性 | 不連続属性、値を指定 | 以下の条件を満たしているケースの数です。 対象の値がケースに含まれていない。 対象の値がケースに含まれていないことがモデルで予測された。 |
偽陽性 | 不連続属性、値を指定 | 以下の条件を満たしているケースの数です。 実際の値が対象の値と等しい。 対象の値がケースに含まれていることがモデルで予測された。 |
偽陰性 | 不連続属性、値を指定 | 以下の条件を満たしているケースの数です。 実際の値が対象の値と等しくない。 対象の値がケースに含まれていないことがモデルで予測された。 |
成功/失敗 | 不連続属性、対象の指定なし | 以下の条件を満たしているケースの数です。 最も高い確率を持つ予測された状態が入力状態と同じであり、確率が [状態のしきい値]の値を超える場合は合格。 それ以外の場合は不合格。 |
リフト | 不連続属性。 対象の値を指定できますが、必須ではありません。 | 対象の属性の値が含まれるすべての行の平均対数確率値。ここで、各ケースの対数確率値は Log(ActualProbability/MarginalProbability) として計算されます。 平均を計算するため、対数尤度の合計が入力データセットの行数で割られます。対象の属性の不足値がある行は除外されます。 Lift には正または負の値を指定できます。 正の値は、ランダムな推測を上回る効果的なモデルであることを示します。 |
ログ スコア | 不連続属性。 対象の値を指定できますが、必須ではありません。 | 合計後に入力データセットの行数で割った、各ケースの実際の確率の対数。対象の属性の不足値がある行は除外されます。 確率は小数で表されるので、ログ スコアは常に負の数値になります。 0 に近いほど、良いスコアになります。 |
大文字と小文字の可能性 | クラスター | パーティション内のケースの数で割った、すべてのケースのクラスター可能性スコアの合計。対象の属性の不足値がある行は除外されます。 |
平均絶対誤差 | 連続属性 | パーティション内のケースの数で割った、パーティションのすべてのケースの絶対誤差の合計。 |
平方根平均平方誤差 | 連続属性 | パーティションの平均 2 乗誤差の平方根。 |
二乗平均平方根誤差 | 不連続属性。 対象の値を指定できますが、必須ではありません。 | パーティション内のケースの数で割った、確率スコアの補数の 2 乗の平均の平方根。対象の属性の不足値がある行は除外されます。 |
二乗平均平方根誤差 | 不連続属性、対象の指定なし。 | パーティション内のケースの数で割った、確率スコアの補数の 2 乗の平均の平方根。対象の属性の不足値があるケースは除外されます。 |