Freigeben über


Diskretisierungsmethoden (Data Mining)

Einige Algorithmen, die verwendet werden, um Data Mining-Modelle in SQL Server Analysis Services zu erstellen, benötigen bestimmte Inhaltstypen, um richtig zu funktionieren. Beispielsweise kann der Microsoft Naive Bayes-Algorithmus kontinuierliche Spalten nicht als Eingabe verwenden und keine kontinuierlichen Werte vorhersagen. Außerdem können einige Spalten so viele Werte enthalten, dass der Algorithmus interessante Muster in Daten, aus denen ein Modell erstellt wird, nur schwer identifizieren kann.

In diesen Fällen können Sie die Daten in den Spalten diskretisieren, sodass Sie die Algorithmen verwenden können, um ein Miningmodell zu erstellen. Unter Diskretisierung wird der Prozess verstanden, Werte in Buckets zu platzieren, sodass sich eine begrenzte Anzahl an möglichen Statuswerten ergibt. Die Buckets selbst werden als sortierte und diskrete Werte behandelt. Sie können sowohl numerische als auch Zeichenfolgenspalten diskretisieren.

Es gibt verschiedene Methoden für das Diskretisieren von Daten. Wenn Ihre Data Mining-Lösung relationale Daten verwendet, können Sie die Anzahl der Buckets für das Gruppieren von Daten steuern, indem Sie den Wert der DiscretizationBucketCount-Eigenschaft festlegen. Die Standardanzahl von Buckets beträgt 5.

Wenn Ihre Data Mining-Lösung Daten aus einem OLAP-Cube (Online Analytical Processing – Analytische Onlineverarbeitung) verwendet, berechnet der Data Mining-Algorithmus automatisch die Anzahl der zu erzeugenden Buckets, indem er die folgende Gleichung verwendet. Dabei steht n für die Anzahl unterschiedlicher Werte in der Spalte:

Number of Buckets = sqrt(n)

Wenn Sie nicht möchten, dass Analysis Services die Anzahl der Buckets berechnet, können Sie die DiscretizationBucketCount-Eigenschaft verwenden, um die Anzahl der Buckets manuell zu bestimmen.

Die folgende Tabelle beschreibt die Methoden, mit denen Sie Daten in Analysis Services diskretisieren können.

Diskretisierungsmethode

Beschreibung

AUTOMATIC

Analysis Services bestimmt, welche Diskretisierungsmethode verwendet werden muss.

CLUSTERS

Der Algorithmus unterteilt die Daten in Gruppen, indem er Stichproben der Schulungsdaten nimmt, diese als Initialisierungswerte eine Reihe von zufällig gewählten Punkten verwendet und anschließend mehrere Iterationen des Microsoft Clustering-Algorithmus anhand der Expectation-Maximization (EM)-Clusteringmethode ausführt. Die CLUSTERS-Methode ist von Vorteil, da sie für jede Verteilungskurve verwendet werden kann. Allerdings ist sie zeitaufwändiger als andere Diskretisierungsmethoden.

Diese Methode kann nur für numerische Spalten verwendet werden.

EQUAL_AREAS

Der Algorithmus teilt die Daten in Gruppen auf, die die gleiche Anzahl von Werten enthalten. Diese Methode eignet sich vor allem für Normalverteilungskurven, jedoch nicht in Fällen, bei denen die Verteilung viele Werte umfasst, die sich in einer engen Gruppe der kontinuierlichen Daten befinden. Wenn beispielsweise die Hälfte der Artikel einen Kostenwert von "0" aufweisen, befindet sich die Hälfte der Daten unterhalb eines einzigen Punktes der Kurve. In einer solchen Verteilung trennt diese Methode die Daten, um gleiche Diskretisierungen in verschiedenen Bereichen zu erstellen. Dadurch wird eine ungenaue Darstellung der Daten erzeugt.

Hinweise

Siehe auch

Verweis

Inhaltstypen (DMX)

Konzepte

Inhaltstypen (Data Mining)

Data Mining-Algorithmen (Analysis Services - Data Mining)

Miningstrukturen (Analysis Services - Data Mining)

Datentypen (Data Mining)

Miningstrukturspalten

Spaltenverteilungen [Data Mining]