リフトチャート (Analysis Services - データマイニング)

[アーティクル]
07/30/2013

リフトチャートは、ランダムな推測に対するマイニングモデルによる改善をグラフィカルに表示し、リフトスコアの観点で変化を測定します。データセットのさまざまな部分のリフトスコアとさまざまなモデルのリフトスコアを比較することにより、どのモデルが最適であるか、またデータセットのケースの何パーセントがモデルの予測の適用から利点を得るかを調べることができます。

リフトチャートにより、同じ予測属性を含む複数のモデルの予測の精度を比較できます。また、1 つの結果 (予測属性の 1 つの値) またはすべての結果 (指定された属性のすべての値) のどちらかの予測精度を評価することもできます。

利益チャートはリフトチャートと同類のチャートで、リフトチャートと同じ情報が含まれます。ただし、利益チャートには各モデルの使用に関連した利益の予測上の増加も表示されます。

リフトチャートについて

抽象のリフトチャートを理解することは難しい場合があります。このため、リフトチャートツールおよびチャートの情報の使用を示すために、ここでは、リフトチャートを使用してターゲットメーリングキャンペーンへの回答率を予測する 1 つのシナリオを考えます。

このシナリオのマーケティング部門は、メーリングキャンペーンでは約 10% の回答率が一般的であることがわかっています。データベースのテーブルには、10,000 人の潜在顧客の一覧が保存されています。この一般的な回答率から、通常、回答が期待できるのはわずか約 1,000 人の潜在顧客からのみです。一方、このプロジェクトの予算は、データベース内の 10,000 人の顧客すべてを対象とするには不足しており、マーケティング部門は回答率の改善を図っています。このシナリオの予算では、5,000 人の顧客のみに広告を郵送できるとします。マーケティング部門には、次の 2 つの選択肢があります。

ターゲットとする 5,000 人の顧客をランダムに選択する。
回答する確率が高いと思われる 5,000 人の顧客をターゲットとするためにマイニングモデルを使用する。

リフトチャートの使用により、両方の選択肢で予測される結果を比較できます。たとえば、5,000 人の顧客をランダムに選択した場合、一般的な回答率に基づき、500 の回答しか期待できません。このシナリオは、リフトチャートのランダム線によって示されています。一方、マーケティング部門がメーリングのターゲット選択にマイニングモデルを使用した場合は、これより大きな回答率を期待できます。これは、回答する確率の高い顧客をモデルが識別するためです。このモデルが完全な場合、このモデルが絶対に誤らない予測を作成できると仮定でき、このモデルが推奨するわずか 1,000 人の潜在顧客に郵便を送ることで、1,000 の回答を得られることを期待できます。このシナリオは、リフトチャートの理想線によって示されています。

現実には、マイニングモデルは、この 2 極、つまりランダムな推測と、完璧な予測の間に位置する確率が高くなります。ランダムな推測に対する改善は、すべてリフトと見なされます。

リフトチャートを作成する場合、特定の値をターゲットとしてその結果のみのリフトを測定したり、可能性のあるすべての結果のリフトを測定するモデルの一般的な評価を作成したりすることができます。これらの選択は、次のセクションで説明されている最後のグラフに影響します。

対象の値を持つリフトチャート

次に示すチャートは、「基本的なデータマイニングチュートリアル」で作成する Targeted Mailing モデルのリフトチャートです。このチャートの対象の属性は [Bike Buyer] で、対象の値は 1 です。これは、自転車を購入したか、購入する可能性がある顧客を意味します。したがって、このリフトチャートは、このモデルによって潜在顧客をより効率的に識別できることを示します。

このグラフには、同じデータに基づく複数のモデルが含まれています。これらのモデルの 1 つは、特定の顧客をターゲットとするようにカスタマイズされています。モデルのトレーニングで使用するデータにフィルターを追加して、マイニングモデルをカスタマイズできます。このフィルターは、トレーニングと評価の両方に使用するケースを、30 歳未満の顧客に制限します。フィルターの 1 つの影響は、基本モデルとフィルターされたモデルとでは異なるデータセットを使用するため、リフトチャートの評価に使用されるケースの数も異なることであることに注意してください。予測結果やその他の統計情報を解釈する際は、この点に留意する必要があります。

2 つのモデルを示すリフトチャート

チャートの X 軸は、予測を比較するために使用されるテストデータセットの割合を示します。チャートの Y 軸は、予測される値の割合を示します。

ここで青で示されている斜めの直線は、すべてのチャートに表示されます。これはランダムな推測の結果を表しており、リフトを評価するためのベースラインとなります。これに加えて、リフトチャートに追加するモデルごとに 2 本の線が表示されます。1 本は、常に完璧な予測を行うモデルを作成できた場合のトレーニングデータセットに対する理想的な結果を表し、もう 1 本はモデルに対する実際のリフト (結果の改善) を表します。

この例では、フィルター選択されたモデルの理想線が濃い青で、実際のリフトの線が黄色で示されています。チャートでは、理想線の最高点が約 40% を指しています。つまり、完璧なモデルを使用したとすれば、母集団の 40% にダイレクトメールを送信するだけで、ターゲットとする顧客の 100% に到達できることになります。母集団の 40% をターゲットとするフィルター選択されたモデルの実際のリフトは、60 ～ 70% です。つまり、母集団の顧客の 40% にダイレクトメールを送信すると、ターゲットとする顧客の 60 ～ 70% に到達できます。

[マイニング凡例] には、曲線上の任意のポイントにおける実際の値が含まれます。測定される場所は、灰色の縦棒をクリックして移動することにより変更できます。チャートの灰色の線は 30% まで移動されています。フィルター選択されたモデルとフィルター選択されていないモデルの両方が、このポイントにおいて最も効果的であると思われるためです。このポイントを過ぎると、リフトの量が小さくなります。

[マイニング凡例] には、チャートの解釈に役立つスコアと統計も含まれます。これらの結果は、灰色の線におけるモデルの精度を表します。このシナリオでは、この線がテストケース全体の 30% を含むよう位置しています。

系列とモデル	スコア	対象になる母集団	予測確率
メーリング対象全員	0.71	47.40%	61.38%
30 歳未満のメーリング対象	0.85	51.81%	46.62%
ランダム推測モデル		31.00%
理想モデル : メーリング対象全員		62.48%
理想モデル : 30 歳未満のメーリング対象		65.28%

結果の解釈

これらの結果から、すべてのケースの 30% を測定すると、対象になる母集団のうち 47.40% の自転車の購買行動を汎用モデル (メーリング対象全員) で予測できることがわかります。つまり、データベース内の顧客の 30% だけに対象を絞ってダイレクトメールを送信した場合、対象となる顧客の半数弱に到達できます。フィルター選択されたモデルを使用した場合、少し良い結果を得ることができ、対象とする顧客の約 51% に到達できます。

[予測確率] の値は、"購入する可能性がある" ケースに顧客を含めるために必要なしきい値を表します。ケースごとに、モデルによって各予測の精度が推定され、その値が保存されます。この値を使用して、顧客をフィルター選択したり対象としたりできます。たとえば、購入する可能性のある顧客を基本モデルから識別するには、予測確率が 61% 以上のケースを取得するクエリを使用します。フィルター選択されたモデルで対象とする顧客を取得するには、すべての条件 (年齢、PredictProbability 値が 46% 以上) を満たすケースを取得するクエリを作成します。

モデルを比較すると、おもしろいことがわかります。フィルター選択されたモデルのほうが多くの潜在顧客を取得できるように思われますが、予測確率のスコアが 46% の顧客を対象とした場合、自転車を購入しない人にダイレクトメールを送信する確率も 53% あります。したがって、どのモデルがより適しているかを判断する場合、フィルター選択されたモデルでは精度を高く、対象サイズを小さくして、基本モデルとの間のバランスを取る必要があります。

[スコア] の値は、正規化された母集団におけるモデルの効果を計算することで、モデルどうしの比較に役立ちます。スコアが高いほど良いため、この場合、予測確率は低くても、30 歳未満の顧客を対象とすると最も効果的であると結論できます。

対象の値を持たないモデルのリフトチャート

予測可能な列の状態を指定しない場合、次の図に示された種類のチャートが作成されます。このチャートは、予測可能な属性のすべての状態に対してモデルがどのように実行されるかを表します。たとえば、このチャートから、自転車を購入する可能性がある顧客と、自転車を購入する可能性が低い顧客の両方を、モデルでどの程度まで予測できるかがわかります。

X 軸は予測可能な列を指定するチャートの場合と同じですが、Y 軸は今度は適正な予測の割合を示しています。よって、ここでは理想線が斜めの線です。50% のデータで、50% のケースをモデルが適正に予測し、これが予想され得る最大値であることを表しています。

適正な予測を示すリフトチャート

チャート内をクリックすると灰色の縦棒を移動でき、[マイニング凡例] には、ケース全体の割合と、適正に予測されたケースの割合が表示されます。たとえば、灰色のスライダーバーを 50% の印に合わせると、[マイニング凡例] に次の精度スコアが表示されます。これらの数値は、「基本的なデータマイニングチュートリアル」で作成した TM_Decision Tree モデルに基づいています。

シリーズ、モデル	スコア	対象になる母集団	予測確率
TM_Decision Tree	0.77	40.50%	72.91%
理想モデル		50.00%

この表から、50% の母集団で、40% のケースを、作成したモデルが適正に予測することがわかります。このモデルの精度には問題がないと考えられます。ただし、このモデルは、予測可能な属性のすべての値を予測します。このため、顧客の 90% が自転車を購入しないという、このモデルによる予測が正しい場合もあります。

トップに戻る

リフトチャートの制限

リフトチャートでは、予測可能な属性が離散値であることが必要です。つまり、連続する数値を予測するモデルの精度の測定にリフトチャートを使用することはできません。

予測可能な属性のすべての不連続値の予測精度は、1 行に表示されます。予測可能な属性の個別の値に対する予測精度行を表示するには、各ターゲットの値に対するリフトチャートを別途作成する必要があります。

1 つのリフトチャートに複数のモデルを追加することができます。ただし、すべてのモデルに同じ予測可能な属性が必要です。属性を共有しないモデルは、[入力] タブの選択で使用できません。

タイムシリーズモデルは、リフトチャートまたは利益チャートで表示できません。タイムシリーズ予測の精度の測定は、履歴データの一部を取っておき、そのデータを予測と比較する方法が一般的です。詳細については、「Microsoft タイムシリーズアルゴリズム」を参照してください。

次の方法で共有

リフトチャート (Analysis Services - データマイニング)

リフトチャートについて

対象の値を持つリフトチャート

結果の解釈

対象の値を持たないモデルのリフトチャート

リフトチャートの制限

関連コンテンツ

関連項目

概念

その他のリソース

次の方法で共有

リフト チャート (Analysis Services - データ マイニング)

リフト チャートについて

対象の値を持つリフト チャート

結果の解釈

対象の値を持たないモデルのリフト チャート

リフト チャートの制限

関連コンテンツ

関連項目

概念

その他のリソース

リフトチャート (Analysis Services - データマイニング)

リフトチャートについて

対象の値を持つリフトチャート

対象の値を持たないモデルのリフトチャート

リフトチャートの制限