Microsoft Decision Trees-Algorithmus

Artikel
06/13/2017

Der Microsoft Decision Trees-Algorithmus ist ein Klassifizierungs- und Regressionsalgorithmus, der von Microsoft SQL Server Analysis Services für die Vorhersagemodellierung von diskreten und kontinuierlichen Attributen bereitgestellt wird.

Bei diskreten Attributen gründet der Algorithmus seine Vorhersagen auf die Beziehungen zwischen den Eingabespalten in einem Dataset Er verwendet die Werte oder Zustände aus diesen Spalten zur Vorhersage der Zustände einer von Ihnen als vorhersagbar bestimmten Spalte. Dabei identifiziert der Algorithmus die Eingabespalten, die von der vorhersagbaren Spalte abhängig sind. Wenn z. B. in einem Szenario zur Vorhersage der wahrscheinlichen Käufer eines Fahrrads neun von zehn jüngeren Kunden ein Fahrrad kaufen, dies jedoch nur bei zwei von zehn älteren Kunden zutrifft, folgert der Algorithmus daraus, dass das Alter ein gutes Vorhersagekriterium für den Fahrradkauf ist. Die von der Entscheidungsstruktur getroffenen Vorhersagen gründen auf dieser Tendenz hinsichtlich eines bestimmten Ergebnisses.

Bei kontinuierlichen Attributen bestimmt der Algorithmus anhand einer linearen Regression, wo sich die Entscheidungsstruktur teilt.

Wenn mehr als eine Spalte als vorhersagbar festgelegt ist, oder wenn die Eingabedaten eine als vorhersagbar festgelegte geschachtelte Tabelle enthalten, bildet der Algorithmus für jede vorhersagbare Spalte eine eigene Entscheidungsstruktur.

Beispiel

Die Marketingabteilung des Adventure Works Cycles-Unternehmens möchte die Merkmale früherer Kunden identifizieren, die darauf hindeuten können, ob diese Kunden wahrscheinlich in Zukunft ein Produkt kaufen werden. In der AdventureWorks2012-Datenbank werden demografische Informationen gespeichert, die frühere Kunden beschreiben. Durch Die Verwendung des Microsoft Decision Trees-Algorithmus zum Analysieren dieser Informationen kann die Marketingabteilung ein Modell erstellen, das voraussagt, ob ein bestimmter Kunde Produkte kaufen wird, basierend auf den Zuständen bekannter Spalten über diesen Kunden, z. B. demografische Daten oder vergangene Kaufmuster.

Funktionsweise des Algorithmus

Der Microsoft Decision Trees-Algorithmus erstellt ein Data Mining-Modell, indem eine Reihe von Aufteilungen in der Struktur erstellt wird. Diese Teilungen werden als Knotendargestellt. Der Algorithmus fügt dem Modell jedes Mal einen Knoten hinzu, wenn eine Eingabespalte in erheblichem Ausmaß von der vorhersagbaren Spalte abhängig ist. Wie der Algorithmus eine Teilung bestimmt, unterscheidet sich danach, ob er eine Vorhersage zu einer kontinuierlichen Spalte oder zu einer diskreten Spalte trifft.

Der Microsoft Decision Trees-Algorithmus verwendet die Featureauswahl , um die Auswahl der nützlichsten Attribute zu steuern. Die Featureauswahl wird von allen Data Mining-Algorithmen von Analysis Services verwendet, um die Leistung und die Qualität der Analyse zu verbessern. Mit der Funktionsauswahl wird vermieden, dass unwichtige Attribute Prozessorzeit belegen. Wenn Sie beim Entwurf eines Data Mining-Modells zu viele Eingabe- und vorhersagbare Attribute verwenden, dauert die Verarbeitung des Modells u. U. sehr lange oder übersteigt sogar den vorhandenen Speicherplatz. Methoden zum Aufteilen der Struktur umfassen branchenübliche Metriken für Entropie- und Bayessche Netzwerke*.* Weitere Informationen zu den Methoden, mit denen aussagekräftige Attribute ausgewählt und anschließend bewertet und bewertet werden, finden Sie unter Featureauswahl (Data Mining).

Ein häufiges Problem bei Data Mining-Modellen besteht darin, dass das Modell zu sensibel für kleine Unterschiede in den Trainingsdaten wird. In diesem Fall gilt es als übergepasst oder übertrainiert. Ein überangepasstes Modell kann nicht zu anderen Datasets verallgemeinert werden. Um eine Überanpassung an einen bestimmten Satz von Daten zu vermeiden, verwendet der Microsoft Decision Trees-Algorithmus Techniken zur Steuerung des Baumwachstums. Eine ausführlichere Erläuterung der Funktionsweise des Microsoft Decision Trees-Algorithmus finden Sie in der technischen Referenz zum Microsoft Decision Trees-Algorithmus.

Vorhersagen diskreter Spalten

Die Art und Weise, wie der Microsoft Decision Trees-Algorithmus eine Struktur für eine diskrete vorhersagbare Spalte erstellt, kann mithilfe eines Histogramms veranschaulicht werden. Im folgenden Diagramm ist ein Histogramm abgebildet, in dem die vorhersagbare Spalte Bike Buyers (Fahrradkäufer) mit der Eingabespalte Age (Alter) abgeglichen wird. Aus dem Histogramm geht hervor, dass das Alter einer Person Rückschlüsse darauf zulässt, ob diese Person ein Fahrrad kaufen wird.

Histogramm aus dem Microsoft Decision Trees-Algorithmus

Die im Diagramm dargestellte Korrelation würde dazu führen, dass der Microsoft Decision Trees-Algorithmus einen neuen Knoten im Modell erstellt.

Entscheidungsstrukturknoten

Durch das Hinzufügen neuer Knoten zu einem Modell bildet der Algorithmus eine Baumstruktur. Der oberste Knoten der Struktur beschreibt, wie sich die vorhersagbare Spalte für die Gesamtpopulation der Kunden unterteilt. Beim Anwachsen des Modells werden nach und nach alle Spalten vom Algorithmus einbezogen.

Vorhersagen kontinuierlicher Spalten

Wenn der Microsoft Decision Trees-Algorithmus eine Struktur basierend auf einer kontinuierlich vorhersagbaren Spalte erstellt, enthält jeder Knoten eine Regressionsformel. Teilungen finden an Stellen der Nichtlinearität in der Regressionsformel statt. Betrachten Sie beispielsweise das folgende Diagramm.

Mehrere Regressionslinien mit Nichtlinearität

Das Diagramm enthält Daten, die sowohl durch eine einzelne Linie als auch durch zwei verbundene Linien dargestellt werden können. Eine einzelne Linie würde die Daten jedoch nur unzureichend wiedergeben. Wenn Sie stattdessen zwei Linien verwenden, lassen sich die Daten im Modell wesentlich besser darstellen. Die Stelle, an der die beiden Linien zusammentreffen, ist die Stelle der Nichtlinearität und damit die Stelle, an der sich ein Knoten im Entscheidungsstrukturmodell teilen würde. So könnte beispielsweise der Knoten, der der Stelle der Nichtlinearität im obigen Graphen entspricht, durch folgendes Diagramm dargestellt werden. Die beiden Gleichungen stellen die Regressionsgleichungen der beiden Linien dar.

Formel, die einen Punkt der Nichtlinearitätsgleichung darstellt

Erforderliche Daten für Entscheidungsstrukturmodelle

Wenn Sie Daten für die Verwendung in einem Entscheidungsstrukturmodell aufbereiten, müssen Sie sich mit den Anforderungen des jeweiligen Algorithmus, dessen Anforderungen an die Daten und der Verwendung der Daten vertraut machen.

Für Entscheidungsstrukturmodelle gelten folgende Anforderungen:

Nur eine Schlüsselspalte: Jedes Modell muss eine numerische Spalte oder Textspalte enthalten, die jeden Datensatz eindeutig identifiziert. Verbundschlüssel sind nicht zulässig.
Eine vorhersagbare Spalte Mindestens eine vorhersagbare Spalte ist erforderlich. Sie können mehrere vorhersagbare Attribute in ein Modell aufnehmen, die numerisch oder diskret sein müssen. Beachten Sie jedoch, dass sich mit steigender Anzahl an vorhersagbaren Attributen die Verarbeitungszeit erhöhen kann.
Eingabespalten Eingabespalten sind erforderlich und können diskret oder kontinuierlich sein. Auch hier gilt, dass sich bei steigender Anzahl an Attributen die Verarbeitungszeit erhöht.

Detaillierte Informationen zu den in Entscheidungsstrukturmodellen unterstützten Inhaltstypen und Datentypen finden Sie im Abschnitt „Anforderungen“ unter Technische Referenz für den Microsoft Decision Trees-Algorithmus.

Anzeigen eines Entscheidungsstrukturmodells

Mit dem Microsoft Struktur-Viewerkönnen Sie das Modell anzeigen. Wenn das Modell mehrere Strukturen generiert, wählen Sie eine Struktur aus. Daraufhin wird im Viewer eine Aufschlüsselung der Fallkategorien für jedes vorhersagbare Attribut angezeigt. Mit dem Abhängigkeitsnetzwerk-Viewer können Sie die Abhängigkeiten zwischen den Strukturen anzeigen. Weitere Informationen finden Sie unter Durchsuchen eines Modells mit dem Microsoft Struktur-Viewer.

Wenn Sie Näheres über die Verzweigungen bzw. Knoten in der Struktur in Erfahrung bringen möchten, können Sie das Modell im Microsoft Generic Content Tree Viewerdurchsuchen. Der für das Modell gespeicherte Inhalt umfasst die Verteilung der Werte an jedem Knoten, die Wahrscheinlichkeiten auf jeder Strukturebene und die Regressionsformeln für kontinuierliche Attribute. Weitere Informationen finden Sie unter Miningmodellinhalt für Entscheidungsstrukturmodelle (Analysis Services – Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell verarbeitet wurde, werden die Ergebnisse als Satz von Mustern und Statistiken gespeichert, die Sie zum Untersuchen von Beziehungen bzw. zum Erstellen von Vorhersagen verwenden können.

Beispiele zur Verwendung von Abfragen in Verbindung mit einem Entscheidungsstrukturmodell finden Sie unter Beispiele für Entscheidungsstruktur-Modellabfragen.

Allgemeine Informationen zum Erstellen von Abfragen für Miningmodelle finden Sie unter Data Mining-Abfragen.

Bemerkungen

Unterstützt die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.
Unterstützt Drillthrough.
Unterstützt die Verwendung von OLAP-Miningmodellen und die Erstellung von Data Mining-Dimensionen.

Weitere Informationen

Data Mining-Algorithmen (Analysis Services - Data Mining)Microsoft Decision Trees Algorithm Technical Reference Decision Trees Model Query Examples Mining Model Content for Decision Tree Models (Analysis Services - Data Mining)

Freigeben über