Udostępnij za pośrednictwem


Górnictwo modelu zawartości dla modeli Naive Bayes (Analysis Services - wyszukiwania danych)

W tym temacie opisano model wyszukiwania zawartość, która jest charakterystyczna dla modeli używające Microsoft Naive Bayes algorytmu.Wyjaśnienie sposobu zinterpretowania statystyki i struktury współużytkowane przez wszystkie typy modeli i ogólne definicje pojęć związanych z model wyszukiwania zawartości, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

Opis struktury modelu Naive Bayes

Model Naive Bayes ma pojedynczy nadrzędnym, reprezentującą modelu i jej metadane, a na dole które nadrzędnym węźle dowolnej liczby niezależnych drzew, reprezentujące atrybuty przewidywalny, wybrane.Oprócz drzew atrybutów każdego modelu zawiera jeden węzeł Statystyka marginalny (NODE_TYPE = 26) zapewnia Statystyki opisowe informacje o zestaw przypadków szkolenia.Aby uzyskać więcej informacji, zobacz informacji w marginalnym węzeł Statystyka.

Dla każdego atrybut przewidywalny i wartość model wyświetla wynik to w szczególności Przewidywalne wpływ drzewa, które zawiera informacje opisujące sposób wprowadzania różnych kolumn.Każde drzewo zawiera atrybut przewidywalny i wartość (NODE_TYPE = 9) i następnie serii węzłów, reprezentujące atrybuty wejściowy (NODE_TYPE = 10).Ponieważ atrybuty wprowadzania zwykle wiele wartości, wprowadzania każdego atrybut (NODE_TYPE = 10) może mieć wiele węzłów podrzędność (NODE_TYPE = 11), dla konkretnego Państwa atrybut.

Ostrzeżenie

Ponieważ model Naive Bayes nie zezwalają na typy danych ciągłej, wszystkie wartości wejściowe kolumn są traktowane jako osobny lub discretized.Można określić, jak discretized wartość.Aby uzyskać więcej informacji Jak Zmiana Discretization kolumny w modelu górnictwo.

struktura zawartości modelu dla prostego klasyfikatora Bayesa

Model zawartości dla modelu Naive Bayes

Ta sekcja zawiera szczegółowe i przykłady tylko dla tych kolumn w model wyszukiwania zawartość ma szczególne znaczenie dla modeli Naive Bayes.

Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumn w zestawie zestaw wierszy schematu, takie jak MODEL_CATALOG i nazwa_modelu, który nie opisane tutaj lub dla wyjaśnienia model wyszukiwania terminologii, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

  • MODEL_CATALOG
    Nazwa bazy danych, w którym przechowywany jest model.

  • NAZWA_MODELU
    Nazwa modelu.

  • ATTRIBUTE_NAME
    Nazwy atrybutów, które odpowiadają tym węźle.

    Główny modelnazwę atrybut przewidywalne.

    Statystyki marginalny nie dotyczy

    Przewidywalne atrybutnazwę atrybut przewidywalne.

    Atrybut wejściowynazwę atrybutu wejściowego.

    Wejściowy stanie atrybutunazwy wejściowe atrybut tylko.Aby uzyskać stan, należy użyć MSOLAP_NODE_SHORT_CAPTION.

  • NAZWA_WĘZŁA
    Nazwa węzła.

    Kolumna ta zawiera taką samą wartość jak NODE_UNIQUE_NAME.

    Aby uzyskać więcej informacji dotyczących konwencji nazewnictwa węzła, zobacz przy użyciu nazwy węzłów i identyfikatory.

  • NODE_UNIQUE_NAME
    Unikatowa nazwa węzła.Zgodnie z Konwencją, który dostarcza informacji na temat relacji między węzłami są przypisywane unikatowe nazwy.Aby uzyskać więcej informacji dotyczących konwencji nazewnictwa węzła, zobacz przy użyciu nazwy węzłów i identyfikatory.

  • NODE_TYPE
    Model Naive Bayes wyświetla następujące typy węzłów:

    Identyfikator typu węzła

    Opis

    26 (NaiveBayesMarginalStatNode)

    Zawiera statystykę opisującą całego zestaw przypadków szkolenia dla modelu.

    9 (Atrybut przewidywalne)

    Zawiera nazwę przewidywalne atrybut.

    10 (Atrybut danych wejściowych)

    Zawiera nazwy kolumna atrybut wejściowy i węzły podrzędność, która zawiera wartości dla atrybutu.

    11 (Stan atrybut input)

    Zawiera wartości lub discretized wartości wszystkich atrybut wejściowych, które zostały skojarzone z atrybut określonego wyjścia.

  • NODE_CAPTION
    Etykieta lub podpis skojarzonego z tym węzłem.Ta właściwość jest głównie w celach wyświetlania.

    Główny modelpusty

    Statystyki marginalny pusty

    Przewidywalne atrybutnazwę atrybut przewidywalne.

    Atrybut wejściowynazwę atrybutu przewidywalny i bieżącego wprowadzania atrybutu.Ex:

    Roweru kupującego -> wieku

    Wejściowy stanie atrybutnazwę atrybut przewidywalny i bieżącego atrybut wprowadzania plus wartość danych wejściowych.Ex:

    Roweru kupującego -> wieku = Brak

  • CHILDREN_CARDINALITY
    Liczba dzieci, które ma węzła.

    Główny modelliczba przewidywalne atrybutów w modelu plus 1 dla węzła marginalny statystyki.

    Statystyki marginalny z definicji nie ma elementów podrzędnych.

    Przewidywalne atrybut liczba atrybut wejściowe związane bieżącego atrybut przewidywalne.

    Atrybut wejściowyliczba discrete lub discretized wartości dla bieżącego wprowadzania atrybutu.

    Wejściowy stanie atrybutzawsze 0.

  • PARENT_UNIQUE_NAME
    Unikatowa nazwa węzła nadrzędnego.Aby uzyskać więcej informacji dotyczących węzłów nadrzędnych i podrzędność, zobacz przy użyciu nazwy węzłów i identyfikatory.

  • NODE_DESCRIPTION
    Taka sama jak podpis węzła.

  • NODE_RULE
    Reprezentacja XML podpis węzła.

  • MARGINAL_RULE
    Taki sam, jak reguły węzła.

  • NODE_PROBABILITY
    Prawdopodobieństwo skojarzone z tym węzłem.

    Główny modelzawsze 0.

    Statystyki marginalny zawsze 0.

    Przewidywalne atrybut zawsze 1.

    Atrybut wejściowyzawsze 1.

    Wejściowy stanie atrybutliczbę dziesiętną, która reprezentuje prawdopodobieństwo bieżącej wartości.Wartości dla wszystkich Państw atrybut wejściowy pod suma nadrzędnego atrybut wejściowy węzła 1.

  • MARGINAL_PROBABILITY
    Taka sama jak prawdopodobieństwa węzła.

  • NODE_DISTRIBUTION
    Tabela, która zawiera histogram prawdopodobieństwa dla węzła.Aby uzyskać więcej informacji, zobacz NODE_DISTRIBUTION tabeli.

  • NODE_SUPPORT
    Liczba przypadków, które obsługują ten węzeł.

    Główny modelliczba wszystkich przypadków, w dane szkolenia.

    Statystyki marginalny zawsze 0.

    Przewidywalne atrybut liczba wszystkich przypadków, w dane szkolenia.

    Atrybut wejściowyliczba wszystkich przypadków, w dane szkolenia.

    Wejściowy stanie atrybutliczba przypadków w dane szkolenia, które zawierają tylko wartość określonego.

  • MSOLAP_MODEL_COLUMN
    Etykieta używana do wyświetlania.Zwykle taka sama, jak ATTRIBUTE_NAME.

  • MSOLAP_NODE_SCORE
    Reprezentuje znaczenie atrybut lub wartość w ramach modelu.

    Główny modelzawsze 0.

    Statystyki marginalny zawsze 0.

    Przewidywalne atrybut zawsze 0.

    Atrybut wejściowyInterestingness wynik dla bieżącego atrybutu wejściowych w stosunku do bieżącego atrybutu przewidywalne.

    Wejściowy stanie atrybutzawsze 0.

  • MSOLAP_NODE_SHORT_CAPTION
    Ciąg tekstowy reprezentujący nazwę lub wartość kolumna.

    Główny modelpusty

    Statystyki marginalny pusty

    Przewidywalne atrybutnazwę atrybut przewidywalne.

    Atrybut wejściowynazwę atrybutu wejściowego.

    Wejściowy stanie atrybutwartości lub discretized wartości wejściowej atrybut.

Przy użyciu nazwy węzłów i identyfikatory

Nazw węzłów w modelu Naive Bayes zawiera dodatkowe informacje dotyczące typu węzeł, aby łatwiej zrozumieć relacje między informacji w modelu.W poniższej tabela przedstawiono Konwencji dla identyfikatorów, które są przypisane do różnych typów węzłów.

Typ węzła

Konwencja o identyfikator węzła

Model główny (1)

Zawsze 0.

Węzeł Statystyka kredytu marginalnego (26)

Dowolnego wartość Identyfikatora.

Atrybut przewidywalny (9)

Liczba szesnastkowa, począwszy od 10 000 000

Przykład: 100000001 10000000b

Atrybut wejściowy (10)

Dwóch części liczba szesnastkowa, gdzie pierwsza część jest zawsze 20000000, a druga część zaczyna szesnastkowy identyfikator atrybut przewidywalne pokrewne.

Przykład: 20000000b00000000

W takim przypadek pokrewne przewidywalne atrybut jest 10000000b.

Stan wejściowego atrybut (11)

Trzech części szesnastkowe gdzie pierwsza część jest zawsze 30000000, druga część zaczyna szesnastkowy identyfikator pokrewne atrybut przewidywalny i trzecia część reprezentuje identyfikator wartość.

Przykład: 30000000b00000000200000000

W takim przypadek pokrewne przewidywalne atrybut jest 10000000b.

Identyfikatory umożliwia dotyczą przewidywalne atrybut wejściowy atrybuty i Państwa.Na przykład, poniższa kwerenda zwraca nazwy i podpisy dla węzłów, reprezentujące możliwe kombinacje wejściowych i przewidywalny atrybutów dla modelu, TM_NaiveBayes.

SELECT NODE_NAME, NODE_CAPTION
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 10

Oczekiwane wyniki:

NAZWA_WĘZŁA

NODE_CAPTION

20000000000000001

Roweru kupującego -> wrócić odległość

20000000000000002

Roweru kupującego -> angielskim edukacji

20000000000000003

Roweru kupującego -> Angielski przewoźnika

20000000000000009

Roweru kupującego -> Stan cywilny

2 000 000 000 000 000a

Roweru kupującego -> liczby dzieci w Główny

2000000000000000b

Roweru kupującego -> regionu

2000000000000000c

Roweru kupującego -> dzieci całkowita

Następnie można pobrać węzłów podrzędność identyfikatorów węzłów nadrzędnych.Następująca kwerenda pobiera węzłów, które zawierają wartości dla Marital Status atrybut, wraz z prawdopodobieństwem każdego węzła.

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 11
AND [PARENT_UNIQUE_NAME] = '20000000000000009'

Ostrzeżenie

Nazwa kolumna PARENT_UNIQUE_NAME, muszą być ujęte w nawiasy, aby odróżnić go od zastrzeżonego słowa kluczowego o tej samej nazwie.

Oczekiwane wyniki:

NAZWA_WĘZŁA

NODE_CAPTION

NODE_PROBABILITY

3000000000000000900000000

Roweru kupującego -> Stan cywilny = Brak

0

3000000000000000900000001

Roweru kupującego -> Stan cywilny = S

0.457504004

3000000000000000900000002

Roweru kupującego -> Stan cywilny = M

0.542495996

Tabela NODE_DISTRIBUTION

kolumna tabela zagnieżdżonej, NODE_DISTRIBUTION, zazwyczaj zawiera informacje statystyczne dotyczące dystrybucji wartości w węźle.W modelu Naive Bayes tej tabela jest wypełniane tylko dla następujących węzłów:

Typ węzła

Zawartość tabela zagnieżdżonej

Model główny (1)

Puste.

Węzeł Statystyka kredytu marginalnego (24)

Zawiera informacje podsumowujące dla atrybutów wszystkie przewidywalne i atrybuty wprowadzania cały zestaw danych szkolenia.

Atrybut przewidywalny (9)

Puste.

Atrybut wejściowy (10)

Puste.

Stan wejściowego atrybut (11)

Statystyki, opisujące dystrybucji wartości w dane szkolenia dla danej kombinacji wartości przewidywalny i wprowadzania zawiera wartość atrybut.

Pobrać wzrost poziomu szczegółowości można używać identyfikatorów węzłów lub węzeł podpisów.Na przykład, poniższa kwerenda pobiera określonych kolumn z tabela NODE_DISTRIBUTION dla wejściowych tylko tych węzłów atrybut powiązanych wartości, 'Marital Status = S'.

SELECT FLATTENED NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM TM_NaiveBayes.content
WHERE NODE_TYPE = 11
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'

Oczekiwane wyniki:

NODE_CAPTION

t.ATTRIBUTE_NAME

t.ATTRIBUTE_VALUE

t.support

t.PROBABILITY

t.VALUETYPE

Roweru kupującego -> Stan cywilny = S

Kupujący Bike

Brak

0

0

1

Roweru kupującego -> Stan cywilny = S

Kupujący Bike

0

3783

0.472934117

4

Roweru kupującego -> Stan cywilny = S

Kupujący Bike

1

4216

0.527065883

4

W wyniki te wartości kolumna obsługi informuje zliczania z określonego stanu cywilnego klienci, którzy zakupili rowerów.Kolumna prawdopodobieństwa zawiera prawdopodobieństwo każda wartość atrybut obliczonej dla tylko tego węzła.Ogólne definicje terminów użytych w tabela NODE_DISTRIBUTION, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

Informacje w marginalnym węzeł Statystyka

W modelu Naive Bayes tabela zagnieżdżonej węzła marginalny statystyki zawiera dystrybucji wartości dla całego zestaw danych szkolenia.Na przykład, poniższa tabela zawiera częściową listę statystyk w tabeli zagnieżdżonej NODE_DISTRIBUTION modelu TM_NaiveBayes:

ATTRIBUTE_NAME

ATTRIBUTE_VALUE

OBSŁUGA

PRAWDOPODOBIEŃSTWO

ODCHYLENIE

VALUETYPE

Kupujący Bike

Brak

0

0

0

1

Kupujący Bike

0

8869

0.507263784

0

4

Kupujący Bike

1

8615

0.492736216

0

4

Stan cywilny

Brak

0

0

0

1

Stan cywilny

S

7999

0.457504004

0

4

Stan cywilny

M

9485

0.542495996

0

4

Całkowita dzieci

Brak

0

0

0

1

Całkowita dzieci

0

4865

0.278254404

0

4

Całkowita dzieci

3

2093

0.119709449

0

4

Całkowita dzieci

1

3406

0.19480668

0

4

Bike Buyer Kolumna jest włączone, ponieważ węzeł Statystyka marginalny zawsze zawiera opis atrybut przewidywalny i jego możliwych wartości.Wszystkie kolumny, które są wymienione reprezentuje atrybuty wejściowe, razem z wartościami, które były używane w modelu.Wartości można tylko brakujące, dyskretnego lub discretized.

W modelu Naive Bayes może być żadnych atrybutów ciągłej; w związku z tym, wszystkie dane liczbowe jest reprezentowany jako osobny (VALUE_TYPE = 4) lub discretized (VALUE_TYPE = 5).

A Missing wartość (VALUE_TYPE = 1) jest dodawany do każdego atrybut wejściowe i wyjściowe do reprezentowania potencjalne wartości, które nie były obecne w dane szkolenia.Należy uważać rozróżnić "Brak" jako ciąg i domyślnie Missing wartości.Aby uzyskać więcej informacji, zobacz Brak wartości (Analysis Services - wyszukiwania danych).