アソシエーション ウィザード (Excel 用データ マイニング クライアント)
関連付けウィザードを使用すると、Microsoft アソシエーション ルール アルゴリズムを使用してデータ マイニング モデルを作成できます。 このようなマイニング モデルは、 レコメンデーション システムの作成に特に役立ちます。
そのしくみは、Microsoft アソシエーション ルール アルゴリズムは、トランザクションまたはイベントで構成されるデータセットをスキャンし、頻繁に一緒に表示される組み合わせを見つけることです。 数千の組み合わせがあり得ますが、アルゴリズムをカスタマイズして探す組み合わせの数を増減して、可能性の高い組み合わせだけを保持することができます。
アソシエーション分析は多くの問題に適用できます。 この方法の最も一般的な適用例は、同時に購入されることの多い製品を見つけるマーケット バスケット分析です。 その情報を使用すると、顧客が既に購入したアイテムに基づいて、顧客に製品を推奨できます。
関連付けウィザードの使用
[ データ マイニング ] リボンで、[ 関連付け] をクリックします。
[ ソース データの選択 ] ページで、Excel のテーブルまたはデータ範囲を選択し、[ 次へ] をクリックします。
サンプル データ ブックの [関連付け] タブには、各トランザクションに複数の製品がある場合や分析する顧客ごとに複数の購入レコードがある場合などに、トランザクション データが通常どのように配置されるかを示す例が含まれています。
外部データを使用して関連付けウィザードを使用して関連付けモデルを構築する場合は、まず Excel にデータを追加し、データを フラット化 する必要があります。 アソシエーション モデリングのためのデータの準備の詳細については、オンライン ブックの「入れ子になったテーブル (Analysis Services - データ マイニング)」SQL Server参照してください。
[ 関連付け ] ページで、トランザクションを識別する列を選択します。
マーケット バスケット モデルの場合、この識別子は、モデル化する単位を表します。 個々の顧客が一定期間内に購入したアイテムを分析する場合や、複数の顧客に関連する多くのトランザクションを分析する場合があります。 前者の場合には、顧客 ID を選択し、後者の場合には、購買発注 ID または他のトランザクション ID を選択します。
[ 項目] で、関連付けを検索する必要がある項目を含む列を選択します。
たとえば、マーケット バスケット モデルでは、製品フィールドを選択し、同時に購入されることの多い製品を分析します。 個別の製品が多すぎて効果的に相互に関連付けることができない場合は、製品カテゴリ フィールドまたは製品サブカテゴリ フィールドを選択できます。
[しきい値] では、モデルの出力を制御または影響する値を設定できます。
[最小のサポート]: 重要と見なす条件としてアイテムのグループの出現回数を指定します。 このアルゴリズムでは、この条件を満たしていないアイテムの組み合わせが無視されます。 たとえば、アイテムが全体で 10 回以上同時に出現するアイテムセットのみを表示することができます。
最小ルールの確率。 ルールを保存するのに必要な最小の確率値を指定します。 すべての組み合わせを見つけるためにデータ セット全体が分析され、確率が計算されます。 しきい値が低い場合は、緩い相関関係にあるアイテムのみが関連付けられます。 しきい値が高すぎると、サポートするデータが十分ではないために、いくつかのアソシエーションが除外される場合があります。
一般に、これらの値を変更すると、次のような効果があります。
サポートの値を小さくすると、検出される組み合わせの数が増加します。
最大のサポートを減らすと、頻繁に出現するためにほとんど意味を持たないアイテムが除外されます。
ルールの確率を小さくすると、データ セット全体のコンテキストで重要と見なされる組み合わせのしきい値が低くなります。
ヒント: サポートと確率の異なる組み合わせを使用して、複数のマイニング モデルを作成することをお勧めします。 各モデルで使用した設定を追跡するには、Excel 用データ マイニング クライアントで使用できる ドキュメント モデル ウィザードを使用し、[ 詳細レポート ] オプションを使用します。 詳細については、「 マイニング モデルの文書化 (Excel 用データ マイニング アドイン)」を参照してください。
必要に応じて、[ パラメーター ] をクリックしてアルゴリズム パラメーターを変更し、マイニング モデルの動作をカスタマイズします。
[アルゴリズム パラメーター] ダイアログ ボックスには、ウィザードで設定したすべてのパラメーターと、MAXIMUM_SUPPORT などの使用頻度の低いいくつかのパラメーターが含まれています。 これらのパラメーターの使用方法については、「 Microsoft Association Algorithm Technical Reference」を参照してください。
[ 完了 ] ページで、データ セットとモデルの一意の名前を入力します。
[オプション] では、モデルの完了後にモデルを操作する方法を定義します。
[参照] をクリックします。 モデルの準備ができると、ルール、アイテムセット、およびアソシエーションを示す依存関係ネットワーク グラフを表示するウィンドウが開きます。
アソシエーション モデル ビューアーでデータを解釈する方法の詳細については、「 関連付けルール モデルの参照」を参照してください。
ドリルスルーを有効にします。 このチェック ボックスをオンにすると、モデルを通じて基になるデータにアクセスできます。
ドリルスルーは、特定のアイテムセットをクリックしてソース データを表示する場合などに便利です。
一時モデルを使用します。 モデルをサーバーに保存しない場合は、このオプションを選択します。 一時的なモデルは、Excel の終了時に削除されます。
このウィザードは、すべての可能な組み合わせを分析し、アイテムセットとルールを含むレポートを作成します。
アソシエーション モデルの詳細
Microsoft アソシエーション ルール アルゴリズムは、トレーニング データを調べて、トランザクションに一緒に表示されるアイテムを検索します。 項目の各グループは、 アイテムセットを構成します。 次に、アルゴリズムは各アイテムセットの出現回数をカウントし、すべてのトランザクション間での各アイテムセットの相対的な重要度を計算します。
アルゴリズムは、アイテムセットに関するこの情報を使用して、アソシエーションの予測や提案に使用できるルールを生成します。 たとえば、"ユーザーが Author 1 の本および Author 2 の本を購入した場合、Author 3 の本も購入する可能性がある" というルールを生成します。 それぞれの提案に対して、アソシエーションの強さに基づいて確率が割り当てられます。
要件
関連付けウィザードを使用するには、Analysis Services データベースに接続されている必要があります。
ソース データをトランザクション テーブルとして編成する必要があります。 ソース データは、トランザクション識別子を含む列を 1 つ含む必要があります。 この列は、アイテムの各グループを識別します。 このトランザクション列は、2 番目のアイテム ID の列と 1 対他の関係にする必要があります。アイテム ID の列には、グループ内の個別のアイテムの名前または ID 番号が格納されています。
概念上の理解を簡単にするために、ショッピング カートの例について説明します。 ショッピング カートに ID が割り当てられている場合は、ショッピング カート ID がトランザクションの識別子として機能します。 ショッピング カート内の各アイテム (ジャガイモや牛乳など) は、そのトランザクションのメンバーです。 関連付けアルゴリズムは、トランザクション全体でアイテムを追跡して、1 つのトランザクションにジャガイモおよびミルクが出現する回数を判断するなどの作業を行うことができます。
ソース データは、トランザクション識別子列によって並べ替える必要があります。
参照
データ マイニング モデルの作成
アソシエーション ルール モデルの参照
買い物かご分析 (Excel 用のテーブル分析ツール)
依存関係ネットワーク ダイアグラムのチュートリアル (データ マイニング アドイン)