Microsoft シーケンスクラスターアルゴリズム

[アーティクル]
07/30/2013

Microsoft シーケンスクラスターアルゴリズムは、Microsoft SQL Server Analysis Services によって提供されるシーケンス分析アルゴリズムです。このアルゴリズムを使用すると、パス (シーケンス) を通じてリンク可能なイベントを含むデータを調べることができます。このアルゴリズムは、同一の複数のシーケンスをグループ化またはクラスター化することによって、最も一般的なシーケンスを見つけます。次に、シーケンスを含むデータの例をいくつか示します。このようなシーケンスはデータマイニングで使用して、一般的な問題やビジネスシナリオの理解を深めることができます。

ユーザーによる Web サイト閲覧時に作成されるクリックパス
ハードディスク障害やサーバーのデッドロックなどの事象に先立つイベントを示すログ
オンラインの小売店舗で顧客が商品を買い物かごに追加する順序を示すトランザクションレコード
サービスのキャンセルやその他の好ましくない結果を予測するために顧客 (または患者) の操作を記録したレコード

このアルゴリズムは、多くの点で Microsoft クラスタリングアルゴリズムに似ています。ただし Microsoft シーケンスクラスターアルゴリズムでは、類似する属性を含むケースのクラスターを検索する代わりに、シーケンス内の類似するパスを含むケースのクラスターを検索します。

例

Adventure Works Cycles の Web サイトでは、サイトのユーザーがどのページを閲覧するかについての情報と、これらのページの閲覧順序についての情報が収集されます。顧客は、サイトにログインしてオンラインで注文することができます。これにより、各顧客プロファイルに対するクリック情報が得られます。このデータに対して Microsoft シーケンスクラスターアルゴリズムを使用することによって、類似したクリックのパターンまたはシーケンスを持つ顧客のグループ (クラスター) を検出できます。次に、これらのクラスターを使用して、顧客の Web サイト内での移動状況の分析、特定の製品の売上に最も密接に関連しているページの識別、次に閲覧される可能性が高いページの予測などが実行できます。

アルゴリズムの動作

Microsoft シーケンスクラスターアルゴリズムは、クラスタリング技法と Markov 連鎖分析を組み合わせた複合アルゴリズムであり、クラスターとそのシーケンスを特定します。Microsoft シーケンスクラスターアルゴリズムの特徴の 1 つは、シーケンスデータを使用することです。このデータは通常、特定ユーザーによる一連の製品購入や Web でのクリックなど、データセット内の一連のイベントや状態間の遷移を表します。クラスタリング用の入力として使用するのに適したシーケンスを判断するために、アルゴリズムはすべての遷移の確率を調べ、データセット内の有効なすべてのシーケンス間の差異または距離を測定します。候補となるシーケンスの一覧がアルゴリズムによって作成された後、クラスタリングの EM 手法の入力としてシーケンス情報が使用されます。

実装の詳細については、「Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス」を参照してください。

シーケンスクラスターモデルに必要なデータ

シーケンスクラスターモデルのトレーニングに使用するデータを用意する際には、必要なデータ量やデータの使用方法など、このアルゴリズムにおける要件を把握しておいてください。

シーケンスクラスターモデルの要件は次のとおりです。

1 つのキー列シーケンスクラスターモデルでは、レコードを識別するキーが必要です。
1 つのシーケンス列 このモデルでは、シーケンスデータ用に、シーケンス ID 列を含む入れ子になったテーブルが必要です。シーケンス ID には、任意の並べ替え可能なデータ型を使用できます。たとえば、この列でシーケンス内のイベントを識別できる限り、Web ページ識別子、整数、またはテキスト文字列を使用できます。各シーケンスが持てるシーケンス ID は 1 つのみ、また、各モデルが持てるシーケンスの種類は 1 種類のみです。
省略可能な非シーケンス属性 このアルゴリズムでは、シーケンス化に無関係な他の属性を追加することができます。これらの属性には、入れ子になった列を含めることができます。

たとえば、前に挙げた Adventure Works Cycles の Web サイトの例でシーケンスクラスターモデルを使用する場合、注文情報をケーステーブルとして、注文ごとの特定の顧客に関する人口統計情報を非シーケンス属性として、顧客がサイトを閲覧したり買い物かごに商品を入れたりしたシーケンスを含む入れ子になったテーブルをシーケンス情報として、それぞれ含めることができます。

シーケンスクラスターモデルでサポートされるコンテンツの種類とデータ型の詳細については、「Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス」の「必要条件」を参照してください。

シーケンスクラスターモデルの表示

このアルゴリズムが作成するマイニングモデルには、データ内の最も一般的なシーケンスの説明が含まれています。モデルを参照するには、Microsoft シーケンスクラスタービューアーを使用します。 Analysis Services でシーケンスクラスターモデルを表示すると、複数の遷移を含むクラスターが表示されます。関連する統計情報も表示できます。詳細については、「Microsoft シーケンスクラスタービューアーを使用したモデルの参照」を参照してください。

さらに詳細を知るには、Microsoft 汎用コンテンツツリービューアーでモデルを参照してください。モデルに保存される内容には、各ノードのすべての値の分布、各クラスターの確率、および遷移に関する詳細が含まれます。詳細については、「シーケンスクラスターモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

予測の作成

モデルのトレーニング後、結果がパターンのセットとして保存されます。データ内の最も一般的なシーケンスの説明を使用して、新しいシーケンスの次に来る可能性の高いステップを予測できます。ただし、アルゴリズムには他の列が含まれるため、結果として得られるモデルを使用して、シーケンス化されたデータとシーケンシャルではない入力との間の関係を識別できます。たとえば、モデルに人口統計データを追加すると、特定の顧客グループに対する予測を実行できます。さまざまな数の予測を返したり、説明的な統計情報を返したりするように、予測クエリをカスタマイズできます。

データマイニングモデルに対するクエリの作成方法については、「データマイニングクエリ」を参照してください。シーケンスクラスターモデルでクエリを使用する方法の例については、「シーケンスクラスターモデルのクエリの例」を参照してください。

解説

Predictive Model Markup Language (PMML) を使用したマイニングモデルの作成はサポートされていません。
ドリルスルーがサポートされています。
OLAP マイニングモデルの使用およびデータマイニングディメンションの作成がサポートされています。

次の方法で共有

Microsoft シーケンスクラスターアルゴリズム

例

アルゴリズムの動作

シーケンスクラスターモデルに必要なデータ

シーケンスクラスターモデルの表示

予測の作成

解説

関連項目

参照

概念

その他のリソース

次の方法で共有

Microsoft シーケンス クラスター アルゴリズム

例

アルゴリズムの動作

シーケンス クラスター モデルに必要なデータ

シーケンス クラスター モデルの表示

予測の作成

解説

関連項目

参照

概念

その他のリソース

Microsoft シーケンスクラスターアルゴリズム

シーケンスクラスターモデルに必要なデータ

シーケンスクラスターモデルの表示