Diskretisierungsmethoden (Data Mining)
Einige Algorithmen, die verwendet werden, um Data Mining-Modelle in SQL Server Analysis Services zu erstellen, benötigen bestimmte Inhaltstypen, um richtig zu funktionieren. Beispielsweise kann der Microsoft Naive Bayes-Algorithmus kontinuierliche Spalten nicht als Eingabe verwenden und keine kontinuierlichen Werte vorhersagen. Außerdem können einige Spalten so viele Werte enthalten, dass der Algorithmus interessante Muster in Daten, aus denen ein Modell erstellt wird, nur schwer identifizieren kann.
In diesen Fällen können Sie die Daten in den Spalten diskretisieren, sodass Sie die Algorithmen verwenden können, um ein Miningmodell zu erstellen. Unter Diskretisierung wird der Prozess verstanden, Werte in Buckets zu platzieren, sodass sich eine begrenzte Anzahl an möglichen Statuswerten ergibt. Die Buckets selbst werden als sortierte und diskrete Werte behandelt. Sie können sowohl numerische als auch Zeichenfolgenspalten diskretisieren.
Es gibt verschiedene Methoden für das Diskretisieren von Daten. Wenn Ihre Data Mining-Lösung relationale Daten verwendet, können Sie die Anzahl der Buckets für das Gruppieren von Daten steuern, indem Sie den Wert der DiscretizationBucketCount-Eigenschaft festlegen. Die Standardanzahl von Buckets beträgt 5.
Wenn Ihre Data Mining-Lösung Daten aus einem OLAP-Cube (Online Analytical Processing – Analytische Onlineverarbeitung) verwendet, berechnet der Data Mining-Algorithmus automatisch die Anzahl der zu erzeugenden Buckets, indem er die folgende Gleichung verwendet. Dabei steht n für die Anzahl unterschiedlicher Werte in der Spalte:
Number of Buckets = sqrt(n)
Wenn Sie nicht möchten, dass Analysis Services die Anzahl der Buckets berechnet, können Sie die DiscretizationBucketCount-Eigenschaft verwenden, um die Anzahl der Buckets manuell zu bestimmen.
Die folgende Tabelle beschreibt die Methoden, mit denen Sie Daten in Analysis Services diskretisieren können.
Diskretisierungsmethode |
Beschreibung |
---|---|
AUTOMATIC |
Analysis Services bestimmt, welche Diskretisierungsmethode verwendet werden muss. |
CLUSTERS |
Der Algorithmus unterteilt die Daten in Gruppen, indem er Stichproben der Schulungsdaten nimmt, diese als Initialisierungswerte eine Reihe von zufällig gewählten Punkten verwendet und anschließend mehrere Iterationen des Microsoft Clustering-Algorithmus anhand der Expectation-Maximization (EM)-Clusteringmethode ausführt. Die CLUSTERS-Methode ist von Vorteil, da sie für jede Verteilungskurve verwendet werden kann. Allerdings ist sie zeitaufwändiger als andere Diskretisierungsmethoden. Diese Methode kann nur für numerische Spalten verwendet werden. |
EQUAL_AREAS |
Der Algorithmus teilt die Daten in Gruppen auf, die die gleiche Anzahl von Werten enthalten. Diese Methode eignet sich vor allem für Normalverteilungskurven, jedoch nicht in Fällen, bei denen die Verteilung viele Werte umfasst, die sich in einer engen Gruppe der kontinuierlichen Daten befinden. Wenn beispielsweise die Hälfte der Artikel einen Kostenwert von "0" aufweisen, befindet sich die Hälfte der Daten unterhalb eines einzigen Punktes der Kurve. In einer solchen Verteilung trennt diese Methode die Daten, um gleiche Diskretisierungen in verschiedenen Bereichen zu erstellen. Dadurch wird eine ungenaue Darstellung der Daten erzeugt. |
Hinweise
Sie können die EQUAL_AREAS-Methode verwenden, um Strings zu diskretisieren.
Die CLUSTERS-Methode verwendet eine zufällige Stichprobe von 1000 Datensätzen, um Daten zu diskretisieren. Verwenden Sie die EQUAL_AREAS-Methode, wenn Sie nicht möchten, dass der Algorithmus Stichproben von Daten nimmt.
Das Lernprogramm für das Miningmodell für neurale Netzwerke bietet ein Beispiel dafür, wie Diskretisierung angepasst werden kann. Weitere Informationen finden Sie unter Lektion 5: Erstellen von neuronalen Netzwerk- und logistischen Regressionsmodellen (Data Mining-Lernprogramm für Fortgeschrittene).
Siehe auch
Verweis
Konzepte
Data Mining-Algorithmen (Analysis Services - Data Mining)