Udostępnij za pośrednictwem


Regresja logistyczne algorytm informacje techniczne firmy Microsoft

The Microsoft Logistic regresja algorithm is a variation of the Microsoft Neural Network algorithm, where the HIDDEN_NODE_RATIO parameter is zestaw to 0. To ustawienie spowoduje utworzenie modelu neuronowe sieci, która nie zawiera ukrytej warstwie, a w związku z tym jest równoważne z logistyczne regresja.

Implementacja algorytmu logistyczne Regresja w programie Microsoft

Załóżmy, że przewidywalna kolumna zawiera tylko dwa stany, ale nadal chcesz przeprowadzić analizę regresja, dotyczące wprowadzania kolumn prawdopodobieństwa, przewidywalna kolumna będzie zawierać określonym stanie.Poniższy rysunek stanowi ilustrację uzyska 1 i 0 w przypadku przypisania ze Stanami kolumny przewidywalne wyniki, obliczyć prawdopodobieństwo, że kolumna będzie zawierać określonego stanu i wykonywania regresja liniowej przed wejściowego zmiennej.

Poorly modeled data using linear regression

oś x zawiera wartości wejściowej kolumna.Oś y zawiera nimi prawdopodobieństwa, że przewidywalna kolumna będzie stan jednego lub drugiego.Problem z tym jest to, że regresja liniowej nie ograniczenie kolumna należeć do przedziału od 0 do 1, nawet tych, które znajdują się minimalnych i maksymalnych wartości kolumna.Aby rozwiązać ten problem jest na wykonanie logistyczne regresja.Zamiast tworzyć linię prostą, analizy regresja logistyczne tworzy "S" w kształcie krzywą, która zawiera ograniczenia minimalną i maksymalną.Na przykład poniższy rysunek stanowi ilustrację wyniki osiągnie w przypadku logistyczne regresja dla tych samych danych, jak używane w poprzednim przykładzie.

Data modeled by using logistic regression

Należy zwrócić uwagę, jak krzywej nigdy nie przejdzie powyżej 1 lub 0.Za pomocą regresja logistyczne do opisania kolumny danych wejściowych, które są istotne przy określaniu stan przewidywalna kolumna.

Wybieranie funkcji

Zaznaczenie funkcji jest używany przez wszystkie algorytmów wyszukiwanie danych usług Analysis Services automatycznie poprawić analizy oraz zmniejszyć obciążenie związane z przetwarzaniem.Metoda stosowana do wybranej funkcji w modelu regresja logistyczne zależy od typu danych atrybut.Ponieważ logistyczne regresja zależy od algorytmu neuronowe sieci firmy Microsoft, używa podzbiór metody wybór funkcji, które dotyczą neuronowe sieci.Aby uzyskać więcej informacji zobaczZaznaczenie funkcji w wyszukiwanie danych.

Punktacja wejściowych

Punktacja w kontekście sieci neuronowe modelu lub modelu regresja logistyczne oznacza proces konwersji wartości, które znajdują się w danych w zbiorze wartości, których używane są takie same, skalowania i w związku z tym można porównać ze sobą.Załóżmy na przykład, że danych wejściowych dla zakres wyników z zakres od 0 do 100 000 należy wejść [numer dziecka] należą do zakres od 0 do 5.Pozwala to proces konwersji na wyniklub porównania ważności każdego dane wejściowe, niezależnie od różnic w wartościach.

Dla każdego stanu znajduje się zestaw szkolenia modelu generuje dane wejściowe.Dla danych wejściowych discrete lub discretized dodatkowe dane wejściowe do przedstawiania stanu Brak jest utworzony, jeśli brak stanu znajduje się co najmniej raz zestaw szkolenia.Stałe produkcji są tworzone co najwyżej dwóch węzłów wejściowych: jedną dla wartości Brak, jeśli jest obecny w danych szkolenia i jeden wejściowe dla wszystkich istniejących lub niezerowe, wartości. Każde wejście jest skalowany na format liczbowy, za pomocą wynik z metoda normalizacji, (x – Μ) / OdchStd.

Podczas normalizacji wynik z średnią (μ) i odchylenie standardowe są uzyskiwane przez zestaw zakończenie szkolenia.

Wartości stałe

Wartość jest obecny: ()X – μ)/σ / / X jest wartością rzeczywistą są kodowane)

Wartości discrete

Μ = p — (prawdopodobieństwo wcześniejszego stanu)

Opis współczynnikach Regresja logistyczne

Istnieją różne metody w literaturze statystycznych do wykonywania regresja logistyczne, ale ważną częścią wszystkich metod jest oceny dopasowanie modelu.Różne statystyki dokładności do dopasowanie proponowano zostały między ryzyko ich wskaźników i wzorców covariate.Omówienie sposobów pomiaru dopasowanie modelu wykracza poza zakres tego tematu, jednak można pobrać wartości współczynników w modelu i ich używać do projektowania własnych środki dopasowanie.

Uwaga

Współczynniki, które są tworzone w ramach modelu regresja logistyczne nie reprezentują współczynniki ryzyko i nie należy interpretować jako taki.

Współczynniki dla każdego węzła w wykresie modelu reprezentują sumy ważonej w danych wejściowych dla tego węzła.W modelu regresja logistyczne ukrytej warstwie jest pusty, dlatego jest tylko jeden zestaw współczynniki, przechowywanego w węzłach danych wyjściowych.Wartości współczynników mogą pobierać za pomocą następującej kwerendy:

SELECT FLATTENED [NODE_UNIQUE NAME],
(SELECT ATTRIBUTE_NAME< ATTRIBUTE_VALUE
FROM NODE_DISTRIBUTION) AS t
FROM <model name>.CONTENT
WHERE NODE_TYPE = 23

Dla każdego wyprowadzić wartość, ta kwerenda zwraca współczynniki i identyfikator, który wskazuje powiązanych węzłów wejściowych.Zwraca ona również wiersz, który zawiera wartość danych wyjściowych i punkt przecięcia z osią.Każdy wejściowy X ma swój własny współczynnik (Ci), ale zagnieżdżona tabela zawiera również współczynnik “ wolnego ” (co), obliczana na podstawie następującej formuły:

F(X) X 1 = * C1 + X 2 * C2 +... + Xn * CN + X 0

Aby uzyskać więcej informacji zobaczPodczas badania logistyczne regresja modelu (Analysis Services — wyszukiwanie danych).

Dostosowywanie algorytm Regresja logistyczne

The Microsoft logistic regresja algorithm supports several parameters that affect the behavior, performance, and accuracy of the resulting model wyszukiwania. Aby zmodyfikować zachowanie modelu ustawienie flagi modelowania w kolumnach używanych jako dane wejściowe.

Ustawianie parametrów algorytmu

W poniższej tabela opisano parametry, które może być używany z algorytmem Regresja logistyczne firmy Microsoft.

  • HOLDOUT_PERCENTAGE
    Określa procent przypadków w obrębie danych szkolenia, używane do obliczania błędu wstrzymanie.HOLDOUT_PERCENTAGE jest używany jako część kryteriów zatrzymania podczas szkolenia model wyszukiwania.

    Wartość domyślna to 30.

  • HOLDOUT_SEED
    Określa liczbę, aby obsługiwał Pseudolosowy generator przy określaniu losowo wstrzymanie danych za pomocą.Jeśli jest HOLDOUT_SEED zestaw na 0, algorytm generuje siewnego na podstawie nazwy model wyszukiwania, aby zagwarantować, że zawartość modelu pozostaje bez zmian podczas ponownego przetwarzania.

    Wartość domyślna to 0.

  • MAXIMUM_INPUT_ATTRIBUTES
    Definiuje liczbę atrybutów wejściowego, jaką może obsłużyć algorytmu przed go wywołuje funkcję zaznaczenia.Wartość tę zestaw na 0, aby wyłączyć funkcję zaznaczenia.

    Wartość domyślna to 255.

  • MAXIMUM_OUTPUT_ATTRIBUTES
    Określa liczbę atrybutów danych wyjściowych, jaką może obsłużyć algorytmu przed go wywołuje funkcję zaznaczenia.Wartość tę zestaw na 0, aby wyłączyć funkcję zaznaczenia.

    Wartość domyślna to 255.

  • MAXIMUM_STATES
    Określa maksymalną liczbę stanów atrybut, który obsługuje algorytm.Jeśli liczba stwierdza, że ma atrybut jest większa niż maksymalna liczba stanów, algorytm korzysta z najbardziej popularnych stanów atrybutu i ignoruje pozostałych stanów.

    Wartość domyślna to 100.

  • SAMPLE_SIZE
    Określa liczbę przypadków, należy użyć w celu szkolić w modelu.Dostawca algorytm używa tego numeru lub procent całości sprawy, które nie są uwzględniane w procentach wstrzymanie określonego przez parametr HOLDOUT_PERCENTAGE, która wartość jest mniejsza.

    Innymi słowy Jeśli jest HOLDOUT_PERCENTAGE zestaw do 30, algorytm użyje wartości tego parametru lub wartość, która jest równy 70 procent całkowita liczba przypadków, zależnie od tego, który jest mniejszy.

    Wartość domyślna to 10000.

Modelowanie flagi

Obsługiwane są następujące flagi modelowania do użytku z Microsoft Algorytm logistyczne regresja.

  • NIEDOZWOLONE WARTOŚCI NULL
    Wskazuje, że kolumna nie może zawierać wartość null.Jeżeli usługi Analysis Services napotyka wartość null podczas szkolenia modelu, spowoduje błąd.

    Stosuje się do kolumn struktura wyszukiwania.

  • MODEL_EXISTENCE_ONLY
    Oznacza, że kolumna będą traktowane jako mające dwóch możliwych stanów: Missing i Existing. Wartość null jest brak wartości.

    Stosuje się do kolumna model wyszukiwania.

Wymagania

Model logistyczne regresja musi zawierać kolumnę klucz, wejściowy kolumny i co najmniej jedną przewidywalna kolumna.

Dane wejściowe i uzyskania przewidywalnej kolumny

The Microsoft Logistic regresja algorithm supports the specific input column content types, przewidywalna kolumna content types, and modeling flags that are listed in the following tabela. Aby uzyskać więcej informacji na temat typów zawartości znaczenie w model wyszukiwania zobacz Typy zawartości (wyszukiwanie danych).

Kolumna

Typy zawartości

Atrybut wejściowy

Ciągłe, discrete, Discretized, klucz, tabela

Atrybut przewidywalne

Ciągłe, discrete, Discretized