次の方法で共有


精度チャート (SQL Server データ マイニング アドイン)

[データ マイニング] リボンの [データ マイニング] リボンの

精度チャートでは、新しいデータ セットにモデルを適用し、そのモデルの精度を評価できます。 このウィザードによって作成される精度グラフは リフト チャートです。これは、データ マイニング モデルの精度を測定するために頻繁に使用されるグラフの一種です。 このタイプの精度チャートには、ランダムな予測と理想的な予測 (100% 正確な予測) を基準とし、それらと比べた場合に特定のデータ マイニング モデルを使用することによって、どの程度の改善を見込めるかがグラフィカルに表示されます。 1 つのチャートで複数のモデルを比較できます。

Adventure Works Cycles 社のマーケティング部門がターゲット メーリング キャンペーンの導入を検討しています。 これまでのキャンペーンの結果から、反応率は 10% 程度であることがわかっています。 データベースのテーブルには、10,000 人の潜在顧客のリストが保存されています。 一般的な反応率が 10% なので、このうち 1,000 人の顧客から何らかの反応があると予測できます。

しかし、今回は予算の都合上、広告を郵送できる顧客が 5,000 人に限られています。そこで、同社のマーケティング部門では、マイニング モデルを使用して、最も効果が期待できる 5,000 人の顧客を抽出することにしました。

5,000 人の顧客をランダムに選択した場合は、500 件の反応しか期待できません。これは、一般にターゲットとされた顧客の 10% しか反応しないためです。 このシナリオは、リフト チャートのランダム線によって示されています。

マイニング モデルを使って対象顧客を絞り込んだ場合はどうでしょうか。このモデルの予測が 100% 正確であると仮定した場合、このモデルが提示する 1,000 人の潜在顧客に広告を郵送すれば、1,000 件の反応を得られることになります。 このシナリオは、リフト チャートの理想線によって示されています。

精度チャート ウィザードの使用

精度チャートを作成するには、既存のデータ マイニング構造を参照する必要があります。 モデルの予測対象が同じであれば、この構造に基づく複数のモデルの精度を測定できます。

使用可能な構造がわからない場合は、サーバーを参照できます。 詳細については、「Excel でのモデルの参照 (SQL Server データ マイニング アドイン)」を参照してください。

精度チャートを作成するには

  1. [ データ マイニング クライアント ] リボンをクリックします。

  2. [ 精度と検証 ] グループで、[ 精度グラフ] をクリックします。

  3. [ 構造またはモデルの選択 ] ダイアログ ボックスで、評価するモデルを選択します。 [次へ] をクリックします。

    Note

    テスト対象のデータに最も適合するモデルを選択する必要があります。

  4. [ 予測する列の指定] ダイアログ ボックスと [予測する値 ] ダイアログ ボックスで、予測する列と、必要に応じてターゲット値を選択します。 [次へ] をクリックします。

    たとえば、上の例では、顧客の反応をモデル化した列を選択し、ターゲット値として "Probably Will Buy" を指定します。

    Note

    連続値を予測することはできません。 ただし、値を不連続な範囲に分割することで、列を離散化することができます。 この操作はデータ マイニング モデルを作成する前に実行する必要があります。

  5. [ ソース データの選択 ] ダイアログ ボックスで、予測を作成するためにモデルを通過するデータのソースを指定します。

  6. モデルに格納されているテスト データではなく、外部データ ソースを使用している場合は、[ リレーションシップの指定 ] ダイアログ ボックスで、新しいソース データの列をデータ マイニング モデルで使用される列にマップします。

    列名が似ている場合、ウィザードによって自動的にマッピングされます。 入力データ内の列には、分析に無関係で無視できる列と、データ マイニング モデルで入力を処理するために必要な列があります。 このような列には、トランザクション ID、ターゲット値、または予測に使用される列が含まれます。 必要な列を割り当てなかった場合は、ウィザードに警告メッセージが示されます。

  7. [完了] をクリックします。

    ウィザードにより、リフト チャートおよび基になるデータを含んだレポートが作成されます。

要件

不連続の値を予測する場合は、予測対象のターゲット値を選択する必要があります。 たとえば、"Yes: Buy" という反応が 1 で、"No: Do Not Buy" という反応が 2 のようにデータが分類されている場合は、予測値として 1 または 2 を指定する必要があります。 これに対し、特定の範囲の値を予測する場合、一度に比較できる値は 2 つまでです。 たとえば、5 以上のスコアを予測する場合は、ソース データを再定義し、結果を 5 以上と 5 未満という 2 つのグループに分類する新しいモデルを作成する必要があります。 その上で、この 2 つのグループの精度を比較できます。

精度について

作成できるチャートは 2 種類あります。1 つは予測可能な列の状態を指定するチャート、もう 1 つは状態を指定しないチャートです。

予測可能な列の状態を指定する場合、チャートの X 軸は、予測を比較するために使用されるテスト データ セットの割合を示します。 チャートの Y 軸は、指定された状態になると予測される値の割合を示します。

予測可能な列の状態を指定しない場合は、想定されるすべての予測に対するモデルの精度がチャートに示されます。

リフト チャートのしくみと、ランダムで理想的な予測線に基づいて精度を計算する方法の詳細については、オンライン ブックのトピック「リフト チャート」SQL Server参照してください。

参照

モデルの検証と予測用モデルの使用 (Excel 用データ マイニング アドイン)