ニューラル ネットワーク モデルの参照
Browse を使用してニューラル ネットワークまたはロジスティック回帰モデルを開くと、Analysis Services のニューラル ネットワーク モデル ビューアーと同様に、モデルが対話型ビューアーに表示されます。 ビューアーは、相関関係の調査、およびモデルと基になるデータのパターンに関する情報の取得に役立ちます。
モデルの調査
Microsoft ニューラル ネットワークまたはロジスティック回帰アルゴリズムに基づくモデルは、既知の入力と出力間の接続のセットとしてデータを分析するという点で似ています。 [参照] ビューアーは、次のコントロールを使用して、接続を探索できます。
このビューアーを試す場合は、分類ウィザード (Excel 用データ マイニング アドイン) ウィザードを使用してモデルを作成し、[アルゴリズム パラメーター] ダイアログ ボックスで [詳細] オプションを使用してアルゴリズムを Microsoft ロジスティック回帰に変更できます。
変数
[変数] ペインには、モデルに対する影響度の順に入力変数の一覧が表示されます。 [入力] および [出力] コントロールを使用してモデルをフィルター処理し、表示される変数と順序を変更します。
このビューアーを使用すると、顧客が自転車購入者と非購入者のどちらのカテゴリに属する可能性が高いか判断する際に最も重要な要因を調査できます。
変数の調査
[変数] ペインは最初は、現在のフィルターに従って、重要な属性から順番に並べられています。 バーの長さは、その要因の強さを示します。
例では、収入が最も影響を与える要因であり、地域がそれに続くことを確認できます。 一方で、多くの自動車と多くの子供を持つ顧客が自転車を購入する可能性はほとんどありません。
[変数] ペインで、[属性] の列見出しをクリックします。
属性を並べ替えることによって、入力列ごとに作成されたビンを確認できます。 職業などの不連続な値を持つ列は、リテラル値によってビン分割されます。
[Age] (年齢) と [Income] (収入) で検出された値の範囲に注目してください。
入力列が数値 (つまり、データ列全体が連続する数値データ型) の場合、数値は不連続な範囲にバケット化 (ビン分割) されます。
Income 列の場合、78.4-154.06 (最上位の収入範囲) のようなグループに細分されています。
別のグループ化が必要な場合は、モデルを構築する前に、ラベル付け (SQL Server データ マイニング アドイン) ツールまたは Excel 関数を使用して、新しい収入カテゴリを作成する必要があります。
[Yes を優先] をクリックして、グラフを既定のビューに戻します。
既定では、ビューは最初の結果値の [~を優先] の値によって並べ替えられます。 [出力] の [値 1] および [値 2] で新しい値を選択すると、1 番目の列と 2 番目の列に割り当てられる結果を変更できます。
グラフの最上位の色分けされたバーの上にマウス ポインターを置きます。
重要度スコア、1 対の確率スコア、および 1 対のリフト値がツールヒントに表示されます。
重要度は、データセット全体を対象として計算され、すべてを入力した場合に、目標の結果と最も相関性が高い属性を識別します。 ビューアーでは、重要度スコア順にグラフの値が並べ替えられます。
確率は、データ セット全体を対象として、属性と値のペアごとに目標の結果について計算されます。
リフトは、この特定の属性と値のペアが結果の昇格にどの程度有益かを示します。
注: どの列にマウス ポインターを置いた場合でも、ツールヒントには同じ情報が表示されます。
入力
[入力] ペインでは、入力を選択して、それをモデルに対するフィルターとして適用することができます。これにより、トレーニング データを基準として、選択した入力が結果に及ぼす影響を確認することができます。
入力の調査
特定のグループを対象として、そのグループで購入に最も大きく影響する要因を確認するとします。
[入力] ウィンドウで、[属性] の [すべて>] セルを<クリックし、[年齢] を選択します。
[値] で、最も若い年齢のカテゴリを選択します。
特定の年齢層をフィルター選択した場合でも、太平洋地域が一覧のほぼ最上位にきます。 これは太平洋地域の顧客が他の地域の顧客よりも自転車を購入する可能性がはるかに高いためです。
地域は影響を及ぼすことができるものではないので、この変数を除外して他の要因を表示するために、入力を再び変更します。
[入力] ペインで、[Age] の空白のセルをクリックし、[Region] (地域) をクリックします。
[値] で [Europe] (欧州) をクリックします。
引き続き入力フィルターを追加して、特に興味深いグループに絞り込みます。
たとえば、入力属性として [Gender] (性別) を追加し、値として [Female] (女性) を選択します。
変数の一覧がどのように変化するか確認してください。 現在は [Income] が、目標の結果を予測するうえで最も重要な変数です。
入力フィルターを適用する順序は結果には影響しません。
出力
[出力] ペインで、興味のある結果を選択できます。 ニューラル ネットワークでは、結果列をいくつでも指定できます。ただし、出力を追加するほど、モデルが複雑になるため、処理時間が大幅に長くなる可能性があります。
2 つの出力を比較するには、出力を [予測] または [予測のみ] 列として指定する必要があります。
出力の調査
[出力属性] 一覧を使用して、属性を選択します。
[値 1] ボックスと [値 2] ボックスで 2 つの結果を選択します。 出力属性のこれらの 2 つの状態は、 [変数] ペインで比較されます。
ニューラル ネットワーク モデルの詳細
ビューアーに表示される情報は、このモデルの種類専用のストアド プロシージャである System.Microsoft.AnalysisServices.System.DataMining.NeuralNet.GetAttributeScores を使用してサーバーから取得されます。
アドインを使用して予測可能な属性を複数持つモデルを作成する場合は、[詳細設定] モデリング オプションを使用します。
詳細については、「マイニング構造の作成 (SQL Serverデータ マイニング アドイン)」および「構造へのモデルの追加 (Excel 用データ マイニング アドイン)」を参照してください。