Microsoft Sequence Clustering-Algorithmus

Artikel
06/13/2017

Der Microsoft Sequence Clustering-Algorithmus ist ein Sequenzanalysealgorithmus, der von Microsoft SQL Server Analysis Services bereitgestellt wird. Sie können diesen Algorithmus verwenden, um Daten zu untersuchen, die Ereignisse enthalten, die durch folgende Pfade oder Sequenzen verknüpft werden können. Der Algorithmus ermittelt die am häufigsten vorkommenden Sequenzen durch Gruppierung oder Clustering identischer Sequenzen. Im Folgenden finden Sie einige Beispiele für Daten, die Sequenzen enthalten, die für ein Data Mining geeignet sind und einen Einblick in allgemeine Probleme oder Geschäftsszenarien ermöglichen:

Klickpfade, die erstellt werden, wenn Benutzer navigieren oder eine Website durchsuchen.
Protokolle, in denen Ereignisse aufgeführt sind, die einem Vorfall vorausgehen, z. B. Festplattenfehler oder Serverdeadlocks.
Transaktionsdatensätze, die die Reihenfolge beschreiben, in der der Kunde eines Onlinehändlers seinem Einkaufswagen Waren hinzufügt.
Datensätze, die die Interaktionen von Kunden (oder Patienten) innerhalb von Zeiträumen verfolgen, um Dienstkündigungen oder andere schlechte Ergebnisse vorherzusagen.

Dieser Algorithmus ähnelt in vielerlei Hinsicht dem Microsoft Clustering-Algorithmus. Anstatt jedoch Cluster von Fällen zu finden, die ähnliche Attribute enthalten, sucht der Microsoft Sequence Clustering-Algorithmus Nach Clustern von Fällen, die ähnliche Pfade in einer Sequenz enthalten.

Beispiel

Die Adventure Works Cycles-Website sammelt Informationen darüber, welche Seiten die Website besuchen, und über die Reihenfolge, in der die Seiten besucht werden. Da die Firma die Möglichkeit der Onlinebestellung bietet, müssen sich die Kunden bei der Site anmelden. Dadurch erhält die Firma Informationen zum Klickverhalten jedes einzelnen Kundenprofils. Mithilfe des Microsoft Sequence Clustering-Algorithmus für diese Daten kann das Unternehmen Gruppen oder Cluster von Kunden mit ähnlichen Mustern oder Klicksequenzen finden. Die Firma kann dann anhand dieser Cluster die Bewegungen der Benutzer auf der Website analysieren und diejenigen Seiten identifizieren, die am engsten mit dem Verkauf eines bestimmten Produkts verbunden sind. Außerdem lässt sich vorhersagen, welche Seiten mit der höchsten Wahrscheinlichkeit als Nächstes besucht werden.

Funktionsweise des Algorithmus

Der Microsoft Sequence Clustering-Algorithmus ist ein Hybridalgorithmus, der Clusteringtechniken mit der Markov-Kettenanalyse kombiniert, um Cluster und deren Sequenzen zu identifizieren. Eines der Merkmale des Microsoft Sequence Clustering-Algorithmus ist die Verwendung von Sequenzdaten. Diese Daten repräsentieren in der Regel eine Reihe von Ereignissen oder Statusübergängen in einem Dataset, wie z. B. eine Reihe von Produktkäufen oder Webklickfolgen eines bestimmten Benutzers. Um zu bestimmen, welche Sequenzen als Eingaben für das Clustering am besten geeignet sind, überprüft der Algorithmus alle Übergangswahrscheinlichkeiten und misst die Differenzen oder Abstände zwischen allen im Dataset möglichen Sequenzen. Nachdem der Algorithmus eine Liste der möglichen Sequenzen erstellt hat, verwendet er die Sequenzinformationen als Eingabe für die EM-Clusteringmethode.

Eine ausführliche Beschreibung der Implementierung finden Sie unter Microsoft Sequence Clustering Algorithm Technical Reference.

Anforderungen für Sequenzclustermodelle

Wenn Sie Daten für das Training von Sequenzclustermodellen aufbereiten, müssen Sie sich mit den Anforderungen des jeweiligen Algorithmus, dessen Anforderungen an die Daten und der Verwendung der Daten vertraut machen.

Für Sequenzclustermodelle gelten folgende Anforderungen:

Eine einzelne Schlüsselspalte: Für ein Sequenzclustermodell ist ein Schlüssel erforderlich, der Datensätze identifiziert.
Eine Sequenzspalte Für Sequenzdaten muss das Modell über eine geschachtelte Tabelle verfügen, die eine Sequenz-ID-Spalte enthält. Die Sequenz-ID kann ein beliebiger sortierbarer Datentyp sein. Sie können beispielsweise eine Webseiten-ID, eine Ganzzahl oder eine Textzeichenfolge verwenden, solange die Spalte die Ereignisse in einer Sequenz identifiziert. Für jede Sequenz ist nur ein Sequenzbezeichner zulässig, und jedes Modell darf nur einen Sequenztyp enthalten.
Optionale nicht sequenzielle Attribute : Der Algorithmus unterstützt das Hinzufügen anderer Attribute, die nicht mit dem Sequenzieren verknüpft sind. Diese Attribute können geschachtelte Spalten einschließen.

In dem Beispiel, das weiter oben auf der Adventure Works Cycles-Website erwähnt wurde, kann ein Sequenzclusteringmodell beispielsweise Bestellinformationen als Falltabelle, demografische Daten über den spezifischen Kunden für jede Bestellung als Nicht-Sequenzattribute und eine geschachtelte Tabelle mit der Sequenz enthalten, in der der Kunde die Website durchsucht oder Elemente als Sequenzinformationen in einen Warenkorb gelegt hat.

Ausführliche Informationen zu den in Sequenzclustermodellen unterstützten Inhaltstypen und Datentypen finden Sie im Abschnitt über Anforderungen unter Technische Referenz für den Microsoft Sequence Clustering-Algorithmus.

Anzeigen eines Sequenzclustermodells

Das von diesem Algorithmus erstellte Miningmodell enthält Beschreibungen der in den Daten am häufigsten vorkommenden Sequenzen. Zum Durchsuchen des Modells können Sie den Microsoft Sequenzcluster-Viewerverwenden. Wenn Sie ein Sequenzclusteringmodell anzeigen, zeigt Analysis Services Cluster an, die mehrere Übergänge enthalten. Sie können auch entsprechende statistische Daten anzeigen. Weitere Informationen finden Sie unter Durchsuchen eines Modells mit dem Microsoft Sequenzcluster-Viewer.

Wenn Sie detailliertere Informationen möchten, können Sie das Modell im Microsoft Generic Content Tree Viewerdurchsuchen. Der für das Modell gespeicherte Inhalt umfasst die Verteilung der Werte an jedem Knoten, die Wahrscheinlichkeit jedes Clusters und Details zu den Übergängen. Weitere Informationen finden Sie unter Miningmodellinhalt für Sequenzclusteringmodelle (Analysis Services – Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell trainiert wurde, werden die Ergebnisse als Mustersatz gespeichert. Anhand der Beschreibungen der häufigsten Sequenzen der Daten können Sie den wahrscheinlich nächsten Schritt in einer neuen Sequenz vorhersagen. Da der Algorithmus jedoch andere Spalten einschließt, eignet sich das entstandene Modell auch zum Identifizieren von Beziehungen zwischen Sequenzdaten und Eingaben, die nicht sequenziell sind. Wenn Sie dem Modell beispielsweise demografische Daten hinzufügen, können Sie Vorhersagen für bestimmte Gruppen von Kunden machen. Vorhersageabfragen können angepasst werden, um eine variable Anzahl von Vorhersagen oder aussagekräftige statistische Daten zurückzugeben.

Informationen zum Erstellen von Abfragen für ein Data Mining-Modell finden Sie unter Data Mining-Abfragen. Beispiele zur Verwendung von Abfragen in Verbindung mit einem Sequenzclustermodell finden Sie unter Sequenz Clustering-Modellabfragebeispiele.

Bemerkungen

Unterstützt nicht die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.
Unterstützt Drillthrough.
Unterstützt die Verwendung von OLAP-Miningmodellen und die Erstellung von Data Mining-Dimensionen.

Weitere Informationen

Data Mining-Algorithmen (Analysis Services - Data Mining)
Technische Referenz für den Microsoft Sequence Clustering-Algorithmus
Sequenzclusteringmodellabfragebeispiele
Durchsuchen eines Modells mit dem Microsoft Sequenzcluster-Viewer

Freigeben über