Metody discretization (wyszukiwanie danych)
Some algorithms that are used to create data mining models in SQL Server Analysis Services require specific content types in order to function correctly.Na przykład Microsoft Algorytm Bayes naive nie może używać ciągłej kolumn jako dane wejściowe i nie można przewidzieć, ciągłej wartości. Ponadto niektóre kolumny mogą zawierać wartości tak wiele algorytm nie można było łatwo zidentyfikować interesujące wzorców danych, z których można utworzyć model.
W takich przypadkach można dyskretyzować dane w kolumnach, aby umożliwić korzystanie z algorytmów do utworzenia model wyszukiwania.Discretization polega na wprowadzenie wartości w pakiety, tak aby były ograniczoną liczbę możliwych stanów.Pakiety, same są traktowane jako wartości zamówionych i discrete.Można dyskretyzować kolumny liczbowe i ciąg znaków.
Istnieje kilka metod, których można użyć do dyskretyzować danych.Jeśli rozwiązanie wyszukiwanie danych korzysta z danych relacyjnych, można kontrolować liczba przedziałów, aby używać do grupowanie danych przez ustawienie wartości DiscretizationBucketCount() Właściwość. Domyślna liczba przedziałów wynosi 5.
Jeżeli rozwiązania wyszukiwanie danych korzysta z danych z moduł przetwarzanie analityczne online (OLAP), algorytmu wyszukiwanie danych automatycznie oblicza liczbę pakiety do generowania za pomocą następującego równania, gdzie n wskazuje liczbę różnych wartości danych kolumna:
Number of Buckets = sqrt(n)
Jeśli nie chcesz Analysis Services Aby obliczyć liczbę pakiety, można użyć DiscretizationBucketCount() Właściwość, aby ręcznie określić liczbę pakiety.
W poniższej tabela opisano metody, które umożliwiają dyskretyzować danych Analysis Services.
Metoda discretization |
Description |
---|---|
AUTOMATIC |
Analysis Services Określa metoda discretization. |
CLUSTERS |
Algorytm podzieli dane w grupach przez próbkowanie danych szkolenia, inicjowanie na liczbę losową punkty, a następnie uruchamiając kilka iteracji algorytm klastrowania firmy Microsoft za pomocą Maximization oczekiwania (EM) klastrowanie metoda.The CLUSTERS metoda is useful because it works on any distribution curve. Jednak wymaga więcej czas przetwarzania niż inne metody discretization. Tej metoda można używać tylko w kolumnach numerycznych. |
EQUAL_AREAS |
Algorytm dzieli je na grupy, które zawierają równej liczby wartości.Ta metoda jest najlepsza w przypadku krzywych rozkład normalny, ale nie działa dobrze, jeśli rozkład zawierającym dużą liczbę wartości, które występują w grupie wąskie ciągłego danych.Na przykład jeśli połowa elementów kosztów 0, połowę danych nastąpi pod jeden punkt na krzywej.W takich dystrybucji tej metoda dzieli dane w celu ustalenia równe discretization do wielu obszarów.Daje to niedokładne reprezentację danych. |
Uwagi
Można użyć EQUAL_AREAS Metoda dyskretyzować ciągów znaków.
The CLUSTERS metoda uses a random sample of 1000 records to dyskretyzować data. Użycie EQUAL_AREAS Metoda, jeśli nie chcesz, aby algorytm do przykładowych danych.
Samouczek modelu górnictwo neuronowe sieci zawiera przykład discretization można dostosować.Aby uzyskać więcej informacji zobaczLekcja 5: Tworzenie sieci neuronowe i modele logistyczne regresja (zaawansowany samouczek wyszukiwanie danych).
See Also