Udostępnij za pośrednictwem


Metody discretization (wyszukiwanie danych)

Some algorithms that are used to create data mining models in SQL Server Analysis Services require specific content types in order to function correctly.Na przykład Microsoft Algorytm Bayes naive nie może używać ciągłej kolumn jako dane wejściowe i nie można przewidzieć, ciągłej wartości. Ponadto niektóre kolumny mogą zawierać wartości tak wiele algorytm nie można było łatwo zidentyfikować interesujące wzorców danych, z których można utworzyć model.

W takich przypadkach można dyskretyzować dane w kolumnach, aby umożliwić korzystanie z algorytmów do utworzenia model wyszukiwania.Discretization polega na wprowadzenie wartości w pakiety, tak aby były ograniczoną liczbę możliwych stanów.Pakiety, same są traktowane jako wartości zamówionych i discrete.Można dyskretyzować kolumny liczbowe i ciąg znaków.

Istnieje kilka metod, których można użyć do dyskretyzować danych.Jeśli rozwiązanie wyszukiwanie danych korzysta z danych relacyjnych, można kontrolować liczba przedziałów, aby używać do grupowanie danych przez ustawienie wartości DiscretizationBucketCount() Właściwość. Domyślna liczba przedziałów wynosi 5.

Jeżeli rozwiązania wyszukiwanie danych korzysta z danych z moduł przetwarzanie analityczne online (OLAP), algorytmu wyszukiwanie danych automatycznie oblicza liczbę pakiety do generowania za pomocą następującego równania, gdzie n wskazuje liczbę różnych wartości danych kolumna:

Number of Buckets = sqrt(n)

Jeśli nie chcesz Analysis Services Aby obliczyć liczbę pakiety, można użyć DiscretizationBucketCount() Właściwość, aby ręcznie określić liczbę pakiety.

W poniższej tabela opisano metody, które umożliwiają dyskretyzować danych Analysis Services.

Metoda discretization

Description

AUTOMATIC

Analysis Services Określa metoda discretization.

CLUSTERS

Algorytm podzieli dane w grupach przez próbkowanie danych szkolenia, inicjowanie na liczbę losową punkty, a następnie uruchamiając kilka iteracji algorytm klastrowania firmy Microsoft za pomocą Maximization oczekiwania (EM) klastrowanie metoda.The CLUSTERS metoda is useful because it works on any distribution curve. Jednak wymaga więcej czas przetwarzania niż inne metody discretization.

Tej metoda można używać tylko w kolumnach numerycznych.

EQUAL_AREAS

Algorytm dzieli je na grupy, które zawierają równej liczby wartości.Ta metoda jest najlepsza w przypadku krzywych rozkład normalny, ale nie działa dobrze, jeśli rozkład zawierającym dużą liczbę wartości, które występują w grupie wąskie ciągłego danych.Na przykład jeśli połowa elementów kosztów 0, połowę danych nastąpi pod jeden punkt na krzywej.W takich dystrybucji tej metoda dzieli dane w celu ustalenia równe discretization do wielu obszarów.Daje to niedokładne reprezentację danych.

Uwagi