予測計算ツールを使用すると、新しいデータの分析やオプションまたはリスクの評価に使用できるスコアカードを作成できます。 たとえば、顧客に関する履歴データと人口統計データがある場合、 予測計算ツール を使用すると、次の 2 つの重要なタスクを実行できます。
人口統計や購買行動など、さまざまな要因についての基礎となる分析の生成。
メンバーを評価して新しい製品やサービスを提案する場合に役立つ作業スコアカードの作成。
ウィザードでは、基になるすべての計算が格納されたワークシートも作成されます。これにより、モデルを操作して、さまざまな入力値が最終的なスコアに与える影響を調べることができます。
また、必要に応じて、ワークシートの印刷バージョンを作成してオフラインでスコアリングを行うこともできます。 印刷バージョンは、オンラインの Excel ブックのようにモデルを操作することはできません。ただし印刷バージョンのワークシートには、値を記入して最終的なスコアを計算するためのすべての計算が含まれています。
予測計算ツールの使用
分析するデータが含まれている Excel テーブルを開きます。
[分析] タブの [予測計算ツール] をクリックします。
[ 予測計算ツール ] ダイアログ ボックスの [ターゲット] で、購入行動など、予測する列を選択します。
ターゲット値を指定します。 値が数値の場合は、[ 範囲内] オプションを使用し、目的の範囲の最小値と最大値を入力します。 値が不連続の場合は、[ 正確 ] オプションを選択し、ドロップダウン リストから値を選択します。
[ 分析に使用する列の選択] をクリックします。
[ 列の選択の詳細設定 ] ダイアログ ボックスで、有用な情報を含む列を選択します。 分析に関係のない列は削除してください。 [OK] をクリックします。
結果がゆがめられるのを避けるためには、重複する情報を含む列も削除する必要があります。 たとえば、数値データを含む収入の列と、"高"、"中"、"低" というラベルを含む収入グループの列がある場合は、両方の列を同じモデルに含めないようにしてください。 代わりに、それぞれの列に対して別のモデルを作成します。
[ 出力オプション] セクションで、[ 操作計算ツール ] を選択して、Excel ブック内に分析とスコアカードを作成します。 [ プリンター対応計算ツール] を選択して分析を作成し、手動でスコア付けに印刷して使用できるレポートも生成します。
[実行] をクリックします。
レポートやスコアカードを含む新しいワークシートが作成されます。
要件
予測計算ツールでは Microsoft ロジスティック回帰アルゴリズムを使用します。このアルゴリズムは、不連続値だけでなく、分離された連続した数値データでも使用できます。
スコアリング レポートについて
両方の出力オプションを選択した場合は、現在のブックに次の 3 つの新しいワークシートが作成されます。
対話と利益の実験に役立つ対話型のテーブルとグラフを含む、分析の結果を含む 予測レポート。
スコアの作成に役立つ対話型 予測計算ツール 。
スコアリングで使用する命令と係数を含む 印刷可能な電卓 。
ここでは、各レポートに含まれる情報と、さまざまなレポート オプションの使用方法について説明します。
グラフを含む予測レポート
最初の予測レポートのタイトルは、ターゲット属性>のターゲット状態><の<予測計算ツール レポートです。 このレポートには、分析から得られた要因のテーブルと、特定の分析の財務的影響を評価するためのツールが含まれています。
コストと利益を指定するためのテーブル
このレポートの左上にある最初のツールは、値の正確な予測や不正確な予測に関連するコストと利益を指定できるテーブルです。 これらのコストと利益は、計算の最適なスコアしきい値を算出するために必要です。
アイテム | 説明と例 |
---|---|
偽陽性のコスト | モデルで予測された陽性の結果が実際には間違っているのに正しいと想定した場合のコスト。 たとえば、顧客が商品を購入するというモデルの予測に基づいて、その顧客を対象とするキャンペーンを企画した場合の、 顧客獲得に要するコストをここに入力します。 |
偽陰性のコスト | モデルで予測された陰性の結果が実際には間違っているのに正しいと想定した場合のコスト。 たとえば、年齢層の高い顧客は自転車を購入しないとモデルで予測されたが、モデルがゆがめられていたために、結果として年齢層の高い顧客を対象とする機会を逃すことになった場合の 顧客あたりのコストをここに入力します。 |
真陽性の利益 | 陽性の結果が正しく予測された場合の利益です。 たとえば、適切な顧客を対象にして売上に結び付いた場合に得られる顧客あたりの利益をここに入力します。 |
真陰性の利益 | 陰性の結果が正しく予測された場合の利益です。 たとえば、対象にしない顧客を正しく特定できた場合に節約できる顧客あたりの広告費をここに入力します。 |
最大の利益を表示するためのグラフ
テーブルに値を入力すると、関連するグラフが自動的に更新されて、現在のモデルで利益を最大化するための最適なポイントが示されます。 このテーブルの右側にある折れ線グラフには、さまざまなスコアしきい値の利益が表示されます。 この利益は、テーブルに入力した利益とコストの数値を使用し、モデルの予測と確率に基づいて評価されます。
たとえば、左上の表の [収益を 最大化するための推奨しきい値] のセルに値 500 が表示されている場合、右側のグラフには折れ線グラフの最も高いポイントとして 500 が表示されます。 この 500 という値は、マイニング モデルの上位 500 の推奨値 (確率の高い順) を使用すると利益が最大になることを表しています。
属性と値の各組み合わせのスコアを含むテーブル
レポートの左下にあるテーブルには、検出された値の詳細な内訳と、それぞれの値が結果に与える影響が表示されます。 このテーブルの値は変更できません。これらの値は、予測を理解しやすくするために表示されています。
たとえば次の表は、対象となる結果が顧客による自転車の購入である場合の結果の例を示しています。 このテーブルには、モデルで使用された各入力列が、モデルに影響を与えたかどうかに関係なく含まれています。 また、入力列に連続する数値データが格納されている場合は、不連続値や離散値も含まれます。
[相対影響] 列の値は確率であり、パーセンテージとして表されます。 この値が結果に与える影響を視覚的に表すために、セルが網掛けされます。
属性 | 値 | 相対的影響 |
---|---|---|
Marital Status | Married | 0 |
Marital Status | Single | 71 |
性別 | Female | 13 |
性別 | Male | 0 |
これらの要因は次のように解釈できます。
顧客が結婚していることは、その顧客が自転車を購入する可能性に影響しない。
顧客が独身であることは、その顧客が自転車を購入する可能性が高いことを示す強力な要因となる (70%)。
顧客の性別が自転車の購買行動の予測に与える影響は、顧客が女性の場合にはごくわずかで (13%)、顧客が男性の場合にはまったくない。
累積誤分類コストのグラフ
レポートの右下の面グラフは、さまざまなスコアしきい値の累積誤分類コストを示しています。 このグラフでも、偽陽性、真陽性、偽陰性、真陰性に対して入力するコストと利益の数値が使用されます。
利益の最大化を焦点とするレポートの右上のグラフとは違って、このグラフには、間違った予測が行われた場合のコストが組み込まれます。 正しい予測が行われた場合の利益より間違った決断が下された場合のコストの方がはるかに重視される、回避策などのシナリオで特に役に立ちます。
たとえば最初のグラフでは、モデルによって予測された上位 500 の顧客を対象にすることが利益を最大化する方法として示されていますが、この 2 つ目のグラフから、間違った顧客を対象にした場合のコストが大きすぎると判断し、最初の 400 の顧客まででマーケティング キャンペーンを打ち切ることを決断する場合も考えられます。
対話型の予測計算
予測計算ツールによって作成された 2 番目のワークシートは、ターゲット属性>の<ターゲット状態>の<予測計算ツールというタイトルです。 これは、個々のスコアを計算するために使用できる対話型ワークシートです。 このワークシートでは、モデルに格納されているパターンと統計が使用されるため、さまざまな値がスコアの予測にどのように影響するのかを試してみることができます。 またこのレポートには、対話型と参照用の 2 つのセクションが用意されています。
最初のテーブル
テーブルの [値] 列で新しい値を選択または入力すると、値の変更がスコアにどのように影響するかを確認できます。
たとえば、レポートに次の値が含まれていた場合、自動車の値を 1 に減らし、その後さらに 0 に減らして、顧客の購買行動にどのように影響するのかを調べることができます。 Cars の値を 0 に変更すると、下部の予測は TRUE に変わります。
属性 | 値 | 相対的影響 |
---|---|---|
Marital Status | Married | 0 |
性別 | Male | 0 |
Income | 39050 - 71062 | 117 |
Children | 0 | 157 |
Education | Bachelors | 22 |
Occupation | Skilled Manual | 33 |
Home Owner | はい | 8 |
Cars | 2 | 50 |
Commute Distance | 0-1 Miles | 99 |
リージョン | 北米 | 0 |
Age | 37 - 46 | 5 |
合計 | 491 | |
Prediction for 'Yes' | FALSE |
新しい値を入力すると、[はいの予測] セルに表示されるスコアが TRUE に変わり、さまざまな属性の 相対影響 スコアも更新されます。
注意
1 つの値 (車の数など) のみを変更した場合でも、他の属性の値や影響が変わることもあります。 データ マイニング モデルではデータの間に複雑な関係が検出されることが多く、1 つの変数の変更が予期しない影響をもたらすこともあるからです。 このため、対話型の予測計算を使用してさまざまな値を試してみたり、マイニング モデルを参照してその詳細を調べてみたりすることをお勧めします。 詳細については、「モデルの 参照」を参照してください。
スコアの内訳
このテーブルには、入力列の各状態の個々のスコアと、そのスコアが結果に与える相対的影響が示されています。 これは、参照専用の静的なテーブルです。
印刷可能な予測計算
予測計算ツールによって作成された 3 番目のワークシートは、ターゲット属性>のターゲット状態><の <PrintablePrediction Calculator というタイトルです。 このスコアカードは、コンピューターを使用できない場所でスコアを手動で計算できるように印刷するためのものです。
予測計算によって生成されるスコアリング レポートを印刷して使用するには
[印刷可能な予測計算ツール] というタイトルのタブを<>クリックします。
[Excel ファイル] メニューの [ 印刷プレビュー] を選択します。
スコアカードが目的どおりに印刷されるように、ページの向きや余白などの印刷オプションを変更します。
このスコアカードは動的なものではなく、モデルには一切関連付けられていません。したがって、書式を整えるために列や行を移動しても、基になるデータには影響しません。
スコアカードを印刷します。
各属性について値を 1 つだけ選択します。 選択した値に対して、チェック マークをボックスに入力し、対応する数値を [スコア ] 列に書き込みます。
正確さを確保するため、できるだけ多くの属性のスコアを記入します。
各属性のスコアの合計を計算し、[ 合計] 行にその数値を入力します。
[集計] 行の直後にシートに出力された条件を使用して、スコアを予測された結果に変換します。
関連ツール
Analysis Services には、この種類の分析で使用する Microsoft ロジスティック回帰アルゴリズムが用意されています。 ロジスティック回帰に既に慣れている場合は、Excel 用データ マイニング クライアントの [詳細設定 ] オプションを使用して、ロジスティック回帰モデルを簡単に作成できます。 詳細については、「 Advanced Modeling (Data Mining Add-ins for Excel)」を参照してください。 ロジスティック回帰モデルのオプションとパラメーターの詳細については、オンライン ブックの「Microsoft ロジスティック回帰アルゴリズム」SQL Server参照してください。