model wyszukiwania Zawartości dla modeli regresji liniowej (Analysis Services — wyszukiwanie danych)
W tym temacie opisano model wyszukiwania zawartość, która jest specyficzna dla modeli których używane są Microsoft Algorytm regresja liniowej. Wyjaśnienie ogólnego model wyszukiwania zawartości dla wszystkich typów modelu zobacz Mining Model Content (Analysis Services - Data Mining).
Opis struktury modelu regresja liniowa
Modelu regresja liniowej ma strukturę bardzo proste.Każdy model ma węzeł jednego nadrzędnego, który reprezentuje modelu i jego metadane i węźle drzewa regresja (NODE_TYPE = 25), która zawiera formułę regresja dla każdego atrybut przewidywalne.
W regresja liniowej Modele korzystają z tego samego algorytmu jako Microsoft Drzewa decyzji, ale różne parametry, które są używane do ograniczenia w drzewie, a tylko ciągłego atrybuty są akceptowane jako dane wejściowe. Jednakże ponieważ zależą od modeli regresja liniowej Microsoft Algorytm drzewo decyzyjne, modele są wyświetlane przy użyciu regresja liniowej Microsoft Podgląd drzewo decyzyjne. Aby uzyskać informacje Zobacz Wyświetlanie model wyszukiwania z podglądem drzewa firmy Microsoft.
W następnej sekcji wyjaśniono, jak interpretować informacje zawarte w węźle formuły regresja.Ta informacja ma zastosowanie nie tylko do modeli regresja liniowej, ale do modeli drzewa decyzji, które zawierają strat zauważyć w części drzewa.
Model zawartości dla modelu regresja liniowej
W tej części podano szczegółowe i przykłady tylko dla tych kolumn w model wyszukiwania zawartości, które mają szczególne znaczenie dla regresja liniowej.
Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumn w zestawie zestaw wierszy schematu Zobacz Mining Model Content (Analysis Services - Data Mining).
MODEL_CATALOG
Nazwa bazy danych, w której przechowywane są w modelu.NAZWA_MODELU
Nazwa modelu.ATTRIBUTE_NAME
Węzeł główny: PusteWęzeł regresja: Nazwa atrybut przewidywalne.
NAZWA_WĘZŁA
Zawsze taka sama, jak NODE_UNIQUE_NAME.NODE_UNIQUE_NAME
Identyfikator unikatowy dla węzła w ramach modelu.Tej wartości nie można zmienić.NODE_TYPE
Modelu regresja liniowej wyświetla następujące typy węzłów:ID typu węzła
Typ
Description
25
Katalog główny drzewa regresja
Zawiera formułę, która opisuje relację między zmienną wejściowych i wyjściowych.
NODE_CAPTION
Etykietę lub podpis skojarzonego z węzłem.Ta właściwość jest głównie w celach wyświetlania.Węzeł główny: Puste
Węzeł regresja: Wszystkie.
CHILDREN_CARDINALITY
Oszacowanie liczby dzieci, który węzeł ma.Węzeł główny: Wskazuje liczbę węzłów regresja.Jednym z węzłów regresja jest tworzony dla każdego atrybut przewidywalne w modelu.
Węzeł regresja: Zawsze 0.
PARENT_UNIQUE_NAME
Unikatowa nazwa węzła nadrzędnego.Dla wszystkich węzłów poziom katalogu głównego, zwracana jest wartość NULL.NODE_DESCRIPTION
Opis węzła.Węzeł główny: Puste
Węzeł regresja: Wszystkie.
NODE_RULE
Nie są używane w modelach regresja liniowej.MARGINAL_RULE
Nie są używane w modelach regresja liniowej.NODE_PROBABILITY
Prawdopodobieństwo związane z tym węźle.Węzeł główny: 0
Węzeł regresja: 1
MARGINAL_PROBABILITY
Prawdopodobieństwo osiągnięcia węzła z węzła nadrzędnego.Węzeł główny: 0
Węzeł regresja: 1
NODE_DISTRIBUTION
Zagnieżdżona tabela zawiera informacje statystyczne dotyczące wartości w węźle.Węzeł główny: 0
Węzeł regresja: Tabela zawierająca elementy, używane do konstruowania formuły regresja.Węzeł regresja zawiera następujące typy wartości:
WARTOŚCI
1 (Brak)
3 (Ciągłe)
7 (Współczynnik)
8 (Zysk wynik)
9 (Statystyka)
11 (Punktu przecięcia z osią)
NODE_SUPPORT
Liczba przypadków, które obsługują ten węzeł.Węzeł główny: 0
Węzeł regresja: Liczba przypadków szkolenia.
MSOLAP_MODEL_COLUMN
Nazwa atrybut przewidywalne.MSOLAP_NODE_SCORE
Sam, jak NODE_PROBABILITYMSOLAP_NODE_SHORT_CAPTION
Etykiety używane w celach wyświetlania.
Remarks
Podczas tworzenia modelu przy użyciu Microsoft Algorytm regresja liniowej, aparat wyszukiwanie danych tworzy specjalne wystąpienie modelu drzewa decyzji i dostarcza parametry, które ograniczyć drzewa zawiera wszystkie dane szkolenia w jeden węzeł. Wszystkie dane wejściowe ciągłego są oznaczane i oceniane jako potencjalne regressors, ale tylko tych regressors, które mieszczą się w danych są zachowywane jako regressors ostatecznego modelu.Analiza daje we wszystkich formuły pojedynczego regresja dla każdego regressor lub nie formuły regresja.
Można przeglądać formułę pełną regresja w Legenda wyszukiwania, klikając przycisk (Wszystkie) węźlePrzeglądarka Microsoft drzewa.
Ponadto podczas tworzenia modelu drzewa decyzji, zawierająca ciągłego atrybut przewidywalne czasami drzewa ma regresja węzłów, które mają właściwości węzłów drzewa regresja.
Węzeł dystrybucji dla atrybutów ciągłe
Większość ważnych informacji w węźle regresja są zawarte w tabela NODE_DISTRIBUTION.Poniższy przykład ilustruje układu tabela NODE_DISTRIBUTION.W tym przykładzie struktura wyszukiwania docelowe wysyłkowe został użyty do utworzenia modelu regresja liniowej, który przewiduje dochód klienta oparte na okres ważności.Model jest w celu ich wyłącznie, ponieważ może być budowany łatwo przy użyciu istniejącego pliku AdventureWorks Przykładowe dane i struktura wyszukiwania.
ATTRIBUTE_NAME |
ATTRIBUTE_VALUE |
POMOC TECHNICZNA |
PRAWDOPODOBIEŃSTWO |
ODCHYLENIE |
WARTOŚCI |
---|---|---|---|---|---|
Dochód roczny |
Brak |
0 |
0.000457142857142857 |
0 |
1 |
Dochód roczny |
57220.8876687257 |
17484 |
0.999542857142857 |
1041275619.52776 |
3 |
Okres ważności |
471.687717702463 |
0 |
0 |
126.969442359327 |
7 |
Okres ważności |
234.680904692439 |
0 |
0 |
0 |
8 |
Okres ważności |
45.4269617936399 |
0 |
0 |
126.969442359327 |
9 |
|
35793.5477381267 |
0 |
0 |
1012968919.28372 |
11 |
Tabela NODE_DISTRIBUTION zawiera wiele wierszy, każdy zgrupowany za pomocą zmiennej.Pierwsze dwa wiersze są zawsze typów wartości 1 do 3 i opisz atrybut lokalizacji miejsce docelowe.Następne wiersze zawierają szczegółowe opisy formuły dla danego regressor.A regressor jest zmienną wejściową, mającej relację liniowy ze zmienną danych wyjściowych.Może mieć wiele regressors, a każdy regressor ma oddzielny wiersz dla współczynnika (wartości = 7), wynik zysku (wartości = 8) oraz statystyki (wartości = 9).Ponadto tabela zawiera wiersz, który zawiera równanie punktu przecięcia z osią (wartości = 11).
Elementy formuły regresja
Tabela zagnieżdżona NODE_DISTRIBUTION zawiera każdy element formuły regresja w osobnym wierszu.Pierwsze dwa wiersze danych w wynikach przykład zawierają informacje o przewidywalne atrybut Dochód roczny, które modele zmienną zależną.Kolumna SUPPORT wskazuje liczbę przypadków, w celu dwa stany tego atrybut: albo Dochód roczny wartość była dostępna, lub Dochód roczny wartość Brak.
Odchylenie względem kolumna informuje obliczane odchylenie przewidywalne atrybut.Odchylenie jest miarą tego, w jaki sposób rozproszonego wartości są w próbce, biorąc pod uwagę oczekiwanego dystrybucji.W tym polu odchylenie obliczonej przez odjęcie średnią kwadratów odchylenia od wartości średniej.The square root of the variance is also known as standard deviation.Analysis Services does not provide the standard deviation but you can easily calculate it.
Dla każdego regressor dane wyjściowe są trzy wiersze.Zawierają one współczynnik zysku wynik i regressor statystyki.
Tabela ta zawiera na końcu wiersza, który zawiera równanie punktu przecięcia z osią.
Współczynnik
Dla każdego regressor, współczynnik (wartości = 7) jest obliczana.Sam współczynnik pojawia się kolumna ATTRIBUTE_VALUE konieczne Odchylenie względem kolumna informuje o odchylenie od współczynnika.Współczynniki są obliczane w taki sposób, aby zmaksymalizować liniowości.
Wynik zysk
Zysk wynik (wartości = 8) dla każdego regressor reprezentuje wynik interestingness atrybut.Wartość ta służy do szacowania przydatność regressors wiele.
Statystyki
Statystyka regressor (wartości = 9) jest średnia dla atrybut w przypadkach, które mają wartość.Kolumna ATTRIBUTE_VALUE zawiera średnią, Odchylenie względem kolumny zawiera sumę odchylenia od wartości średniej.
Punkt przecięcia z osią
Zazwyczaj punkt przecięcia z osią (Wartości = 11) lub reszta w równaniu regresja informuje wartość atrybutu przewidywalny, w punkcie, w których atrybut wejściowy wynosi 0.W wielu przypadkach to nie może się zdarzyć i może doprowadzić do counterintuitive wyniki.
Na przykład w modelu prognozuje dochodu oparte na okres ważności jest bezużyteczny dowiedzieć się więcej dochód w wieku 0.W życiu rzeczywistym jest zazwyczaj bardziej przydatne, warto wiedzieć na temat działania wiersza pod względem wartości średniej.Therefore, SQL Server Analysis Services modifies the intercept to express each regressor in a relationship with the mean.
To dostosowanie jest trudno zobaczyć w model wyszukiwania zawartości, ale jest widoczna podczas przeglądania zakończonych równania w Legenda wyszukiwania of the Przeglądarka Microsoft drzewa.Formuła regresja jest przesuwane od 0 punktu do punktu, przedstawiającą średnią.Stanowi to widok, który jest bardziej intuicyjna podane bieżących danych.
Z tego powodu, przy założeniu, że średnia wieku jest około 45, punkt przecięcia z osią (wartości = 11) dla regresja formuły pozwalają średniego dochodu.