Udostępnij za pośrednictwem


Microsoft regresją algorytm techniczne

Microsoft Regresją algorytm jest odmianą Microsoft sieci neuronowe algorytmu, gdzie HIDDEN_NODE_RATIO parametr jest zestaw 0.To ustawienie będzie utworzyć model sieci neuronowe nie zawiera warstwy ukryte, a zatem jest równoważne do logistyczne regresja.

Implementacja Microsoft logistyczne algorytm regresji

Załóżmy, że przewidywalna kolumna zawiera tylko dwa stany jeszcze nadal chcesz wykonać analizę regresja, dotyczących wprowadzania kolumn prawdopodobieństwa, przewidywalna kolumna będzie zawierać konkretnego Państwa.Poniższy diagram ilustruje wyniki będą uzyskiwać 1 i 0 w przypadku przypisania do państw przewidywalna kolumna, obliczyć prawdopodobieństwo, że kolumna będzie zawierać konkretnego Państwa i wykonywania regresja liniowej przeciwko zmienną wejściową.

Dane niedokładnie modelowane przy użyciu regresji liniowej

oś x zawiera wartości wejściowej kolumna.Oś y zawiera prawdopodobieństw, przewidywalna kolumna będą Państwo jednego lub drugiego.Problem z tym jest, że regresja liniowej nie wymusza kolumna się pomiędzy 0 a 1, mimo że są minimalnej i maksymalnej wartości kolumna.Sposób rozwiązania tego problemu jest przeprowadzenie logistyczne regresja.Zamiast tworzenia linii prostej logistyczne regresja analizy tworzy "S" kształt krzywej, zawierającego maksymalne i minimalne ograniczenia.Na przykład, poniższy diagram ilustruje wyniki można osiągnąć w przypadku logistyczne regresja przeciwko te same dane, co w poprzednim przykładzie.

Dane modelowane przy użyciu regresji logistycznej

Zwróć uwagę, jak krzywa nigdy nie przechodzi powyżej 1 lub poniżej 0.Można użyć logistyczne regresja do opisania kolumna danych wejściowych, które są ważne przy określaniu Państwo przewidywalne kolumna.

Wybieranie funkcji

Wybieranie funkcji jest automatycznie używany przez wszystkie algorytmów wyszukiwanie danych usług Analysis Services poprawa analizy i zmniejszyć obciążenie związane z przetwarzaniem.Metoda stosowana do zaznaczenia funkcji logistycznych regresja modelu zależy od typu danych atrybut.Ponieważ logistyczne regresja jest oparte na algorytmie sieci neuronowe Microsoft używa podzbiór funkcji metod zaznaczania, które dotyczą sieci neuronowe.Aby uzyskać więcej informacji, zobacz Zaznaczenie funkcji wyszukiwania danych.

Punktacja nakładów

Punktacja w kontekście sieci neuronowe oznacza proces konwersji wartości, które znajdują się w danych do modelu lub regresją modelu zestaw wartości, które tę samą skalę i mogą być porównywane ze sobą.Załóżmy na przykład, nakładów dla zakres dochodu z zakres od 0 do 100 000, niezbędne dane wejściowe dla [liczba dzieci] w zakresie od 0 do 5.Ten proces konwersji umożliwia wynik, lub porównywania znaczenie każdego wejścia, niezależnie od różnic w wartości.

Dla każdego Państwa w szkolenie zestaw, model generuje dane wejściowe.Produkcji discrete lub discretized dodatkowych danych wejściowych do reprezentowania Państwa brak jest tworzony, jeśli brak stanu pojawia się co najmniej raz w zestaw szkoleniowy.Ciągłe nakładów tworzone są najwyżej dwóch węzłów wejściowych: jedną dla brakujących wartości, jeżeli obecny w dane szkolenia i jeden wejściowe dla wszystkich wartości istniejących lub inne niż null.Każdy obraz wejściowy jest skalowany na format liczbowy, za pomocą metoda normalizacji wynik z (x — μ) / OdchStd.

Podczas normalizacji wynik z średniej (μ) i odchylenie standardowe są uzyskiwane przez zestaw zakończenie szkolenia.

Wartości stałe

Wartość jest obecny: (X — μ) / σ / / X jest rzeczywista wartość jest kodowane)

Brak wartości:    -   Μ i σ / / ujemne mu podzielona przez sigma)

Dyskretnych wartości

Μ = p — (prawdopodobieństwo uprzedniego Państwa)

OdchStd = sqrt(p(1-p))

Wartość jest obecne:     (1 – μ)/σ// (One minus mu) divided by sigma)

Brak wartości:     (– μ)/σ// negative mu divided by sigma)

Opis współczynników regresji logistyczne

Istnieją różne metody w literaturze statystycznych do wykonywania logistyczne regresja, ale ocenia ważną częścią wszystkie metody dopasowanie modelu.Różne statystyki dokładności do dopasowanie zostały zaproponowane, między covariate wzorców i współczynniki jakiegoś je.Omówienie sposobu miara dopasowanie modelu wykracza poza zakres tego tematu; jednak można pobrać wartości współczynników w modelu i używać ich do projektowania własnych środków dopasowanie.

Ostrzeżenie

Współczynniki są tworzone jako część logistyczne regresja modelu nie reprezentują jakiegoś współczynniki i nie może być interpretowane jako takie.

Współczynniki dla każdego węzła w wykresie modelu reprezentują sumy ważonej wejść do tego węzła.W logistyczne regresja model, warstwy ukryte jest pusty; Dlatego jest tylko jeden zestaw współczynniki, przechowywanego w węzłach wyjściowych.Wartości współczynników mogą pobrać za pomocą następującej kwerendy:

SELECT FLATTENED [NODE_UNIQUE NAME],
(SELECT ATTRIBUTE_NAME< ATTRIBUTE_VALUE
FROM NODE_DISTRIBUTION) AS t
FROM <model name>.CONTENT
WHERE NODE_TYPE = 23

Dla każdego wyjścia wartość ta kwerenda zwraca współczynniki i identyfikator wskazuje pokrewne węzła wprowadzania.Zwraca ona również wiersza, który zawiera wartość dane wyjściowe i punktu przecięcia z osią.Każdego wejścia x ma swój własny współczynnik (Ci), ale zagnieżdżona tabela zawiera także współczynnik "wolne" (Co), obliczona zgodnie z następującym wzorem:

F(X) = X 1 * C1 + X 2 * C2 + … + Xn * Cn + X 0

Aktywacja: Exp(F(X)) / (1 + exp(F(X)))

Aby uzyskać więcej informacji, zobacz Badanie modelu regresją (Analysis Services - wyszukiwania danych).

Dostosowywanie algorytm regresją

Microsoft Logistyczne regresja algorytm obsługuje kilka parametrów, które wpływają na zachowanie, wydajność i dokładność wynikowy modelu górniczych.Zachowanie modelu można także modyfikować przez ustawienie flagi modelowania dla kolumn używanych jako danych wejściowych.

Ustawianie parametrów algorytmu

W poniższej tabela opisano parametry, które mogą być używane z algorytmem regresją Microsoft.

  • HOLDOUT_PERCENTAGE
    Określa procent przypadków w dane szkolenia, użyte do obliczenia błąd wstrzymanie.HOLDOUT_PERCENTAGE jest używany jako część kryteriów zatrzymania podczas szkolenia model wyszukiwania.

    Wartość domyślna to 30.

  • HOLDOUT_SEED
    Określa numer do materiału siewnego pseudolosowych generator przy określaniu losowo za pomocą dane wstrzymania.Jeśli jest HOLDOUT_SEED zestaw 0, algorytm generuje materiału siewnego na podstawie nazwy modelu górnictwa, aby zagwarantować, że zawartość modelu pozostaje taka sama podczas ponownego przetwarzania.

    Wartość domyślna to 0.

  • MAXIMUM_INPUT_ATTRIBUTES
    Określa liczbę atrybutów wejściowych może obsłużyć algorytmu przed go wywołuje funkcję zaznaczania.Ta wartość 0, aby wyłączyć funkcję zaznaczania.

    Wartość domyślna to 255.

  • MAXIMUM_OUTPUT_ATTRIBUTES
    Określa liczbę atrybutów wyjścia może obsłużyć algorytmu przed go wywołuje funkcję zaznaczania.Ta wartość 0, aby wyłączyć funkcję zaznaczania.

    Wartość domyślna to 255.

  • MAXIMUM_STATES
    Określa maksymalną liczbę stanów atrybut, które obsługuje algorytm.Jeśli numer Państwa, które ma atrybut jest większy niż maksymalna liczba państw, algorytm wykorzystuje większość popularnych Państwa atrybutu i ignoruje pozostałe Państwa.

    Wartość domyślna to 100.

  • SAMPLE_SIZE
    Określa liczbę przypadków, zostanie wykorzystana na szkolić modelu.Dostawca algorytm używa tego numeru lub procent sumy spraw, które nie znajdują się w procentach wstrzymanie określoną przez parametr HOLDOUT_PERCENTAGE, którakolwiek wartość jest mniejsza.

    Innymi słowy Jeśli jest HOLDOUT_PERCENTAGE zestaw 30, algorytm użyje wartości tego parametru lub wartość jest równa 70 procent całkowitej liczby przypadków, mniejsza.

    Wartość domyślna to 10000.

Modelowanie flag

Obsługiwane są następujące flagi modelowania do użytku z Microsoft regresją algorytmu.

  • NOT NULL
    Wskazuje, że kolumna nie może zawierać wartość null.Spowoduje błąd, jeśli usługi Analysis Services napotka null podczas szkolenia modelu.

    Stosuje się do struktura wyszukiwania kolumny.

  • MODEL_EXISTENCE_ONLY
    Oznacza, że kolumna będą traktowane jako posiadające dwa możliwe stany: Missingand Existing.Wartość null jest wartość Brak.

    Stosuje się do model wyszukiwania kolumna.

Wymagania

Logistyczne regresja model musi zawierać kolumna klucz, wprowadzania kolumna i co najmniej jedną przewidywalna kolumna.

Dane wejściowe i przewidywalny kolumn

Microsoft Algorytm regresją obsługuje kolumna wprowadzania określonych typów zawartości, przewidywalna kolumna typów zawartości i flagi modelowania, które są wymienione w poniższej tabela.Aby uzyskać więcej informacji dotyczących typów zawartości znaczenie w model wyszukiwania, zobacz Typy zawartości (wyszukiwania danych).

Kolumna

Typy zawartości

Atrybut wejściowy

Ciągłe, dyskretnych, Discretized, klucz, tabela

Przewidywalne atrybut

Ciągłe, dyskretnych, Discretized