次の方法で共有


Microsoft シーケンス クラスタ アルゴリズム

Microsoft シーケンス クラスタ アルゴリズムは、MicrosoftSQL ServerAnalysis Services によって提供されるシーケンス分析アルゴリズムです。このアルゴリズムを使用すると、パス (シーケンス) を通じてリンク可能なイベントを含むデータを調べることができます。このアルゴリズムは、同一の複数のシーケンスをグループ化またはクラスタ化することによって、最も一般的なシーケンスを見つけます。次に、いくつかのシーケンスの例を示します。

  • ユーザーによる Web サイト閲覧時に作成されるクリック パスを説明するデータ

  • オンラインの小売店舗で顧客が商品を買い物かごに追加する順序を説明するデータ

このアルゴリズムは、多くの点で Microsoft クラスタリング アルゴリズムに似ています。ただし Microsoft シーケンス クラスタ アルゴリズムでは、類似する属性を含むケースのクラスタを検索する代わりに、シーケンス内の類似するパスを含むケースのクラスタを検索します。

AdventureWorks の Web サイトでは、サイトのユーザーがどのページを閲覧するかについての情報と、これらのページの閲覧順序についての情報が収集されます。顧客は、サイトにログインしてオンラインで注文することができます。これにより、各顧客プロファイルに対するクリック情報が得られます。このデータに対して Microsoft シーケンス クラスタ アルゴリズムを使用することによって、類似したクリックのパターンまたはシーケンスを持つ顧客のグループ (クラスタ) を検出できます。次に、これらのクラスタを使用して、顧客の Web サイト内での移動状況の分析、特定の製品の売上に最も密接に関連しているページの識別、次に閲覧される可能性が高いページの予測などが実行できます。

アルゴリズムの動作

Microsoft シーケンス クラスタ アルゴリズムは、クラスタリング技法と Markov 連鎖分析を組み合わせた複合アルゴリズムであり、クラスタとそのシーケンスを特定します。Microsoft シーケンス クラスタ アルゴリズムの特徴の 1 つは、シーケンス データを使用することです。このデータは通常、特定ユーザーによる一連の製品購入や Web でのクリックなど、データセット内の一連のイベントや状態間の遷移を表します。クラスタリング用の入力として使用するのに適したシーケンスを判断するために、アルゴリズムはすべての遷移の確率を調べ、データセット内の有効なすべてのシーケンス間の差異または距離を測定します。候補となるシーケンスの一覧がアルゴリズムによって作成された後、クラスタリングの EM 手法の入力としてシーケンス情報が使用されます。

実装の詳細については、「Microsoft シーケンス クラスタリング アルゴリズム テクニカル リファレンス」を参照してください。

シーケンス クラスタ モデルに必要なデータ

シーケンス クラスタ モデルのトレーニングに使用するデータを用意する際には、必要なデータ量やデータの使用方法など、このアルゴリズムにおける要件を把握しておいてください。

シーケンス クラスタ モデルの要件は次のとおりです。

  • 1 つの key    シーケンス クラスタ モデルでは、レコードを識別するキーが必要です。

  • 1 つのシーケンス列   このモデルでは、シーケンス データ用に、シーケンス ID 列を含む入れ子になったテーブルが必要です。シーケンス ID には、任意の並べ替え可能なデータ型を使用できます。たとえば、この列でシーケンス内のイベントを識別できる限り、Web ページ識別子、整数、またはテキスト文字列を使用できます。各シーケンスが持てるシーケンス ID は 1 つのみ、また、各モデルが持てるシーケンスの種類は 1 種類のみです。

  • 省略可能な非シーケンス属性   このアルゴリズムでは、シーケンス化に無関係な他の属性を追加することができます。これらの属性には、入れ子になった列を含めることができます。

たとえば、前に挙げた AdventureWorks の Web サイトの例でシーケンス クラスタ モデルを使用する場合、注文情報をケース テーブルとして、注文ごとの特定の顧客に関する人口統計情報を非シーケンス属性として、顧客がサイトを閲覧したり買い物かごに商品を入れたりしたシーケンスを含む入れ子になったテーブルをシーケンス情報として、それぞれ含めることができます。

シーケンス クラスタ モデルでサポートされるコンテンツの種類とデータ型の詳細については、「Microsoft シーケンス クラスタリング アルゴリズム テクニカル リファレンス」の「必要条件」を参照してください。

シーケンス クラスタ モデルの表示

このアルゴリズムが作成するマイニング モデルには、データ内の最も一般的なシーケンスの説明が含まれています。モデルを参照するには、Microsoft シーケンス クラスタ ビューアを使用します。Analysis Services でシーケンス クラスタ モデルを表示すると、複数の遷移を含むクラスタが表示されます。関連する統計情報も表示できます。詳細については、「Microsoft シーケンス クラスタ ビューアを使用したマイニング モデルの表示」を参照してください。

さらに詳細を知るには、Microsoft 汎用コンテンツ ツリー ビューアでモデルを参照してください。モデルに保存される内容には、各ノードのすべての値の分布、各クラスタの確率、および遷移に関する詳細が含まれます。詳細については、「シーケンス クラスタ モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。

予測の作成

モデルのトレーニング後、結果がパターンのセットとして保存されます。データ内の最も一般的なシーケンスの説明を使用して、新しいシーケンスの次に来る可能性の高いステップを予測できます。ただし、アルゴリズムには他の列が含まれるため、結果として得られるモデルを使用して、シーケンス化されたデータとシーケンシャルではない入力との間の関係を識別できます。たとえば、モデルに人口統計データを追加すると、特定の顧客グループに対する予測を実行できます。さまざまな数の予測を返したり、説明的な統計情報を返したりするように、予測クエリをカスタマイズできます。

データ マイニング モデルに対するクエリの作成方法については、「データ マイニング モデルのクエリ (Analysis Services - データ マイニング)」を参照してください。シーケンス クラスタ モデルでクエリを使用する方法の例については、「シーケンス クラスタ モデルのクエリ (Analysis Services - データ マイニング)」を参照してください。

解説

  • Predictive Model Markup Language (PMML) を使用したマイニング モデルの作成はサポートされていません。

  • ドリルスルーがサポートされています。

  • OLAP マイニング モデルの使用およびデータ マイニング ディメンションの作成がサポートされています。