次の方法で共有


相互検証レポートのメジャー

適用対象:SQL Server 2019 以前の Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

データ マイニングは SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で停止されました。 非推奨および停止された機能については、ドキュメントの更新は行われません。 詳細については、「Analysis Services 下位互換性」を参照してください。

クロス検証中に、SQL Server Analysis Servicesはマイニング構造内のデータを複数の断面に分割し、構造と関連するマイニング モデルを繰り返しテストします。 この分析に基づき、構造および各モデルの標準の精度のメジャーを出力します。

レポートでは、データ内のフォールドの数や各フォールド内のデータの量に関するいくつかの基本情報に加えて、データの分布を示す一連の一般的な基準が表示されます。 それぞれのセクションに対する一般的な基準を比較することで、構造またはモデルの信頼性を評価できます。

SQL Server Analysis Servicesには、マイニング モデルに関する一連の詳細なメジャーも表示されます。 これらのメジャーは、分析するモデルの種類や、不連続であるか連続であるかなど属性の型によって異なります。

ここでは、 [相互検証] レポートに含まれるメジャーおよびその意味の一覧を示します。 各メジャーの計算方法の詳細については、「 クロス検証式」を参照してください。

相互検証レポートのメジャーの一覧

次の表は、相互検証レポートに表示されるメジャーの一覧を示します。 メジャーは、表の左の列に表示されている テストの種類でグループ化されています。 右の列には、レポートに表示されるメジャーの名前、および意味に関する簡単な説明を示します。

テストの種類 基準と説明
クラスタリング クラスタリング モデルに適用されるメジャー
Case likelihood:
通常、ケースが特定のクラスターに属する確率を示します。 相互検証の場合、スコアが集計された後、ケースの数で割られます。スコアは、ケースの平均確率となります。
分類 分類モデルに適用されるメジャー
真陽性/True Negative/誤検知/False 負数:

予測された状態が対象の状態と一致し、指定されたしきい値より予測確率が大きい、パーティション内の行または値の数。

対象の属性の不足値のあるケースは除外されます。すべての値のカウントが加算されるわけではありません。
合格/失敗:
予測された状態が対象の状態と一致し、予測確率の値が 0 を超えるパーティション内の行または値の数。
Likelihood Likelihood メジャーは複数の種類のモデルに適用されます。
リフト:
実際の予測確率対テスト ケースの周辺確率の比です。 対象の属性の不足値があるケースは除外されます。

通常、モデルが使用されるときに対象の結果の確率がどれだけ向上するかを示します。
Root Mean Square Error:
パーティション内のケースの数で割った、すべてのパーティション ケースの平均誤差の平方根です。対象の属性の不足値がある行は除外されます。

RMSE は、予測モデルの一般的な推定機能です。 スコアは各ケースの残差を平均し、モデル誤差の 1 つのインジケーターを生成します。
ログ スコア:
合計後に入力データセットの行数で割った、各ケースの実際の確率の対数です。対象の属性の不足値がある行は除外されます。

確率は小数で表されるので、ログ スコアは常に負の数値になります。 0 に近い数値ほど、良いスコアになります。 生のスコアが非常に不規則な分布またはゆがんだ分布を持つのに対し、ログ スコアは割合に似ています。
推定 連続する数値属性を予測する推定モデルのみに適用されるメジャー。
Root Mean Square Error:
予測値を実際の値と比較するときの平均誤差。

RMSE は、予測モデルの一般的な推定機能です。 スコアは各ケースの残差を平均し、モデル誤差の 1 つのインジケーターを生成します。
Mean Absolute Error:
予測値対実際の値の平均誤差です。誤差の絶対合計の平均として計算されます。

平均絶対誤差は、予測全体が実際の値にどの程度近いかを判断するときに便利です。 小さいスコアは、予測が正確だったことを意味します。
ログ スコア:
合計後に入力データセットの行数で割った、各ケースの実際の確率の対数です。対象の属性の不足値がある行は除外されます。

確率は小数で表されるので、ログ スコアは常に負の数値になります。 0 に近い数値ほど、良いスコアになります。 生のスコアが非常に不規則な分布またはゆがんだ分布を持つのに対し、ログ スコアは割合に似ています。
集計 各パーティションの結果における分散を示します。
平均:
特定のメジャーに関するパーティション値の平均です。
標準偏差:
モデル内のすべてのパーティションを対象とした、特定メジャーの平均値に基づく偏差の平均。

相互検証の場合、このスコアの値が高いことは、フォールドの間の変動が大きいことを意味します。

参照

テストおよび検証 (データ マイニング)