Informacje techniczne algorytm Bayes Naive firmy Microsoft
The Microsoft Naive Bayes algorithm is a classification algorithm provided by Microsoft SQL Server Analysis Services for use in predictive modeling.Algorytm mieszania oblicza prawdopodobieństwo warunkowego między kolumnami danych wejściowych i przewidywalny i zakłada się, że kolumny są niezależne.To założeniu niezależności prowadzi do nazwy Naive Bayes.
Implementacja algorytmu Bayes Naive firmy Microsoft
Ten algorytm jest mniej praktyce intensywna niż inne Microsoft algorytmy i dlatego jest przydatna do szybkiego generowania modeli wyszukiwania wykrywanie relacje między kolumnami danych wejściowych i przewidywalny kolumn. Algorytm bierze pod uwagę każdej pary wartości atrybut wejściowych i wyjściowych wartości atrybut.
Opis właściwości matematyczne Bayes Theorem wykracza poza zakres tej dokumentacji, aby uzyskać więcej informacji, zobacz temat papieru przez dział badawczy firmy Microsoft: Nauka Bayesian sieci:.
Aby uzyskać opis sposobu prawdopodobieństw we wszystkich modelach zostaną dopasowane w taki sposób, aby konto dla potencjalnych brakujących wartości zobacz Brak wartości (Analysis Services — wyszukiwanie danych).
Wybieranie funkcji
The Microsoft Naive Bayes algorithm performs automatic feature selection to limit the number of values that are considered when building the model.Aby uzyskać więcej informacji zobaczZaznaczenie funkcji w wyszukiwanie danych.
Algorytm |
Metoda analizy |
Komentarze |
---|---|---|
Naive Bayes |
Entropy Shannon firmy Bayesian z K2 Prior Bayesian Dirichlet z jednolitego przed (domyślnie) |
Naive Bayes akceptuje tylko atrybuty discrete lub discretized; dlatego nie można użyć wyniku interestingness. |
Algorytm zaprojektowano w celu zminimalizowania czas przetwarzania i wydajnie zaznacz atrybuty, które mają największe znaczenie; może jednak kontrolować dane używane przez algorytm przez ustawienie parametrów w następujący sposób:
Aby ograniczyć wartości, które są używane jako dane wejściowe, można zmniejszyć wartość MAXIMUM_INPUT_ATTRIBUTES.
Aby ograniczyć liczbę atrybutów analizowane za pomocą modelu, można zmniejszyć wartość MAXIMUM_OUTPUT_ATTRIBUTES.
Aby ograniczyć liczbę wartości, które mogą być uznane za wszelkie jeden atrybut, zmniejsz wartość MINIMUM_STATES.
Dostosowywanie Naive algorytm Bayes
The Microsoft Naive Bayes algorithm supports several parameters that affect the behavior, performance, and accuracy of the resulting model wyszukiwania. Można także zestaw flag modelowania w modelu kolumn do kontrolowania sposobu przetwarzania danych lub obsługi zestaw flag struktura wyszukiwania, aby określić sposób brakujące wartości lub wartości null.
Ustawianie parametrów algorytmu
The Microsoft Naive Bayes algorithm supports several parameters that affect the performance and accuracy of the resulting model wyszukiwania. W poniższej tabela opisano każdego parametru.
MAXIMUM_INPUT_ATTRIBUTES
Określa maksymalną liczbę operacji wejścia atrybuty, które może obsłużyć algorytmu, zanim go wywołuje funkcję zaznaczenia.Ustawienie tej wartości na 0 wyłącza zaznaczenia funkcja dla danych wejściowych atrybutów.Wartość domyślna to 255.
MAXIMUM_OUTPUT_ATTRIBUTES
Określa maksymalną liczbę wyników atrybuty, że algorytm może obsłużyć zanim go wywołuje funkcję zaznaczenia.Ustawienie wartości 0 powoduje wyłączenie funkcji wyboru atrybutów formatu danych wyjściowych.Wartość domyślna to 255.
MINIMUM_DEPENDENCY_PROBABILITY
Określa prawdopodobieństwo minimalne zależność między atrybutami wejściowych i wyjściowych.Ta wartość jest używana, aby ograniczyć rozmiar zawartości, który jest generowany przez algorytm.Tę właściwość zestaw z zakresu od 0 do 1.Większe wartości zmniejszyć liczbę atrybutów w modelu zawartości.Wartość domyślna to 0,5.
MAXIMUM_STATES
Określa maksymalną liczbę stanów atrybut, który obsługuje algorytm.Jeśli liczba stanów, które ma atrybut jest większa niż maksymalna liczba stanów, algorytm używa atrybutu najbardziej popularnych stanów i traktuje jako brakujące pozostałych stanów.Wartość domyślna to 100.
Modelowanie flagi
The Microsoft Decision Trees algorithm supports the following modeling flags.Podczas tworzenia struktura wyszukiwania lub model wyszukiwania, należy zdefiniować modelowania flagi, aby określić sposób obsługi wartości w każdej kolumnie podczas analizy.Aby uzyskać więcej informacji zobaczFlagi modelowania (wyszukiwanie danych).
Flaga modelowania |
Description |
---|---|
MODEL_EXISTENCE_ONLY |
Oznacza, że kolumna będą traktowane jako mające dwóch możliwych stanów: Brak i istniejącego. Wartość null jest brak wartości. Stosuje się do kolumna model wyszukiwania. |
NIEDOZWOLONE WARTOŚCI NULL |
Wskazuje, że kolumna nie może zawierać wartość null.Jeżeli usługi Analysis Services napotyka wartość null podczas szkolenia modelu, spowoduje błąd. Stosuje się do kolumna struktura wyszukiwania. |
Wymagania
Model drzewa Naive Bayes musi zawierać kolumna klucz, co najmniej jeden atrybut przewidywalny i co najmniej jeden atrybut wejściowy.Atrybut nie może być ciągłe, jeśli dane zawierają stałe dane liczbowe, go będą miały ignorowane lub discretized.
Dane wejściowe i uzyskania przewidywalnej kolumny
The Microsoft Naive Bayes algorithm supports the specific input columns and predictable columns that are listed in the following tabela. Aby uzyskać więcej informacji na temat typów zawartości znaczenie w model wyszukiwania zobacz Typy zawartości (wyszukiwanie danych).
Kolumna |
Typy zawartości |
---|---|
Atrybut wejściowy |
Cykliczne, discrete, Discretized klucz tabela, a zamówiona |
Atrybut przewidywalne |
Cykliczne, discrete, Discretized tabela, a zamówiona |
Uwaga
Obsługiwane są typy zawartości Cyclical i Zamówione, ale algorytm traktuje je jako discrete wartości i nie wykonuje przetwarzania specjalne.