Artykuł
07/22/2011

Górnictwo modelu zawartości dla modeli Naive Bayes (Analysis Services - wyszukiwania danych)

W tym temacie opisano model wyszukiwania zawartość, która jest charakterystyczna dla modeli używające Microsoft Naive Bayes algorytmu.Wyjaśnienie sposobu zinterpretowania statystyki i struktury współużytkowane przez wszystkie typy modeli i ogólne definicje pojęć związanych z model wyszukiwania zawartości, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

Opis struktury modelu Naive Bayes

Model Naive Bayes ma pojedynczy nadrzędnym, reprezentującą modelu i jej metadane, a na dole które nadrzędnym węźle dowolnej liczby niezależnych drzew, reprezentujące atrybuty przewidywalny, wybrane.Oprócz drzew atrybutów każdego modelu zawiera jeden węzeł Statystyka marginalny (NODE_TYPE = 26) zapewnia Statystyki opisowe informacje o zestaw przypadków szkolenia.Aby uzyskać więcej informacji, zobacz informacji w marginalnym węzeł Statystyka.

Dla każdego atrybut przewidywalny i wartość model wyświetla wynik to w szczególności Przewidywalne wpływ drzewa, które zawiera informacje opisujące sposób wprowadzania różnych kolumn.Każde drzewo zawiera atrybut przewidywalny i wartość (NODE_TYPE = 9) i następnie serii węzłów, reprezentujące atrybuty wejściowy (NODE_TYPE = 10).Ponieważ atrybuty wprowadzania zwykle wiele wartości, wprowadzania każdego atrybut (NODE_TYPE = 10) może mieć wiele węzłów podrzędność (NODE_TYPE = 11), dla konkretnego Państwa atrybut.

Ostrzeżenie

Ponieważ model Naive Bayes nie zezwalają na typy danych ciągłej, wszystkie wartości wejściowe kolumn są traktowane jako osobny lub discretized.Można określić, jak discretized wartość.Aby uzyskać więcej informacji Jak Zmiana Discretization kolumny w modelu górnictwo.

struktura zawartości modelu dla prostego klasyfikatora Bayesa

Model zawartości dla modelu Naive Bayes

Ta sekcja zawiera szczegółowe i przykłady tylko dla tych kolumn w model wyszukiwania zawartość ma szczególne znaczenie dla modeli Naive Bayes.

Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumn w zestawie zestaw wierszy schematu, takie jak MODEL_CATALOG i nazwa_modelu, który nie opisane tutaj lub dla wyjaśnienia model wyszukiwania terminologii, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

MODEL_CATALOG
Nazwa bazy danych, w którym przechowywany jest model.
NAZWA_MODELU
Nazwa modelu.
ATTRIBUTE_NAME
Nazwy atrybutów, które odpowiadają tym węźle.

Główny modelnazwę atrybut przewidywalne.

Statystyki marginalny nie dotyczy

Przewidywalne atrybutnazwę atrybut przewidywalne.

Atrybut wejściowynazwę atrybutu wejściowego.

Wejściowy stanie atrybutunazwy wejściowe atrybut tylko.Aby uzyskać stan, należy użyć MSOLAP_NODE_SHORT_CAPTION.
NAZWA_WĘZŁA
Nazwa węzła.

Kolumna ta zawiera taką samą wartość jak NODE_UNIQUE_NAME.

Aby uzyskać więcej informacji dotyczących konwencji nazewnictwa węzła, zobacz przy użyciu nazwy węzłów i identyfikatory.
NODE_UNIQUE_NAME
Unikatowa nazwa węzła.Zgodnie z Konwencją, który dostarcza informacji na temat relacji między węzłami są przypisywane unikatowe nazwy.Aby uzyskać więcej informacji dotyczących konwencji nazewnictwa węzła, zobacz przy użyciu nazwy węzłów i identyfikatory.

NODE_TYPE
Model Naive Bayes wyświetla następujące typy węzłów:

Identyfikator typu węzła	Opis
26 (NaiveBayesMarginalStatNode)	Zawiera statystykę opisującą całego zestaw przypadków szkolenia dla modelu.
9 (Atrybut przewidywalne)	Zawiera nazwę przewidywalne atrybut.
10 (Atrybut danych wejściowych)	Zawiera nazwy kolumna atrybut wejściowy i węzły podrzędność, która zawiera wartości dla atrybutu.
11 (Stan atrybut input)	Zawiera wartości lub discretized wartości wszystkich atrybut wejściowych, które zostały skojarzone z atrybut określonego wyjścia.

NODE_CAPTION
Etykieta lub podpis skojarzonego z tym węzłem.Ta właściwość jest głównie w celach wyświetlania.

Główny modelpusty

Statystyki marginalny pusty

Przewidywalne atrybutnazwę atrybut przewidywalne.

Atrybut wejściowynazwę atrybutu przewidywalny i bieżącego wprowadzania atrybutu.Ex:

Roweru kupującego -> wieku

Wejściowy stanie atrybutnazwę atrybut przewidywalny i bieżącego atrybut wprowadzania plus wartość danych wejściowych.Ex:

Roweru kupującego -> wieku = Brak
CHILDREN_CARDINALITY
Liczba dzieci, które ma węzła.

Główny modelliczba przewidywalne atrybutów w modelu plus 1 dla węzła marginalny statystyki.

Statystyki marginalny z definicji nie ma elementów podrzędnych.

Przewidywalne atrybut liczba atrybut wejściowe związane bieżącego atrybut przewidywalne.

Atrybut wejściowyliczba discrete lub discretized wartości dla bieżącego wprowadzania atrybutu.

Wejściowy stanie atrybutzawsze 0.
PARENT_UNIQUE_NAME
Unikatowa nazwa węzła nadrzędnego.Aby uzyskać więcej informacji dotyczących węzłów nadrzędnych i podrzędność, zobacz przy użyciu nazwy węzłów i identyfikatory.
NODE_DESCRIPTION
Taka sama jak podpis węzła.
NODE_RULE
Reprezentacja XML podpis węzła.
MARGINAL_RULE
Taki sam, jak reguły węzła.
NODE_PROBABILITY
Prawdopodobieństwo skojarzone z tym węzłem.

Główny modelzawsze 0.

Statystyki marginalny zawsze 0.

Przewidywalne atrybut zawsze 1.

Atrybut wejściowyzawsze 1.

Wejściowy stanie atrybutliczbę dziesiętną, która reprezentuje prawdopodobieństwo bieżącej wartości.Wartości dla wszystkich Państw atrybut wejściowy pod suma nadrzędnego atrybut wejściowy węzła 1.
MARGINAL_PROBABILITY
Taka sama jak prawdopodobieństwa węzła.
NODE_DISTRIBUTION
Tabela, która zawiera histogram prawdopodobieństwa dla węzła.Aby uzyskać więcej informacji, zobacz NODE_DISTRIBUTION tabeli.
NODE_SUPPORT
Liczba przypadków, które obsługują ten węzeł.

Główny modelliczba wszystkich przypadków, w dane szkolenia.

Statystyki marginalny zawsze 0.

Przewidywalne atrybut liczba wszystkich przypadków, w dane szkolenia.

Atrybut wejściowyliczba wszystkich przypadków, w dane szkolenia.

Wejściowy stanie atrybutliczba przypadków w dane szkolenia, które zawierają tylko wartość określonego.
MSOLAP_MODEL_COLUMN
Etykieta używana do wyświetlania.Zwykle taka sama, jak ATTRIBUTE_NAME.
MSOLAP_NODE_SCORE
Reprezentuje znaczenie atrybut lub wartość w ramach modelu.

Główny modelzawsze 0.

Statystyki marginalny zawsze 0.

Przewidywalne atrybut zawsze 0.

Atrybut wejściowyInterestingness wynik dla bieżącego atrybutu wejściowych w stosunku do bieżącego atrybutu przewidywalne.

Wejściowy stanie atrybutzawsze 0.
MSOLAP_NODE_SHORT_CAPTION
Ciąg tekstowy reprezentujący nazwę lub wartość kolumna.

Główny modelpusty

Statystyki marginalny pusty

Przewidywalne atrybutnazwę atrybut przewidywalne.

Atrybut wejściowynazwę atrybutu wejściowego.

Wejściowy stanie atrybutwartości lub discretized wartości wejściowej atrybut.

Przy użyciu nazwy węzłów i identyfikatory

Nazw węzłów w modelu Naive Bayes zawiera dodatkowe informacje dotyczące typu węzeł, aby łatwiej zrozumieć relacje między informacji w modelu.W poniższej tabela przedstawiono Konwencji dla identyfikatorów, które są przypisane do różnych typów węzłów.

Typ węzła	Konwencja o identyfikator węzła
Model główny (1)	Zawsze 0.
Węzeł Statystyka kredytu marginalnego (26)	Dowolnego wartość Identyfikatora.
Atrybut przewidywalny (9)	Liczba szesnastkowa, począwszy od 10 000 000 Przykład: 100000001 10000000b
Atrybut wejściowy (10)	Dwóch części liczba szesnastkowa, gdzie pierwsza część jest zawsze 20000000, a druga część zaczyna szesnastkowy identyfikator atrybut przewidywalne pokrewne. Przykład: 20000000b00000000 W takim przypadek pokrewne przewidywalne atrybut jest 10000000b.
Stan wejściowego atrybut (11)	Trzech części szesnastkowe gdzie pierwsza część jest zawsze 30000000, druga część zaczyna szesnastkowy identyfikator pokrewne atrybut przewidywalny i trzecia część reprezentuje identyfikator wartość. Przykład: 30000000b00000000200000000 W takim przypadek pokrewne przewidywalne atrybut jest 10000000b.

Identyfikatory umożliwia dotyczą przewidywalne atrybut wejściowy atrybuty i Państwa.Na przykład, poniższa kwerenda zwraca nazwy i podpisy dla węzłów, reprezentujące możliwe kombinacje wejściowych i przewidywalny atrybutów dla modelu, TM_NaiveBayes.

SELECT NODE_NAME, NODE_CAPTION
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 10

Oczekiwane wyniki:

NAZWA_WĘZŁA	NODE_CAPTION
20000000000000001	Roweru kupującego -> wrócić odległość
20000000000000002	Roweru kupującego -> angielskim edukacji
20000000000000003	Roweru kupującego -> Angielski przewoźnika
20000000000000009	Roweru kupującego -> Stan cywilny
2 000 000 000 000 000a	Roweru kupującego -> liczby dzieci w Główny
2000000000000000b	Roweru kupującego -> regionu
2000000000000000c	Roweru kupującego -> dzieci całkowita

Następnie można pobrać węzłów podrzędność identyfikatorów węzłów nadrzędnych.Następująca kwerenda pobiera węzłów, które zawierają wartości dla Marital Status atrybut, wraz z prawdopodobieństwem każdego węzła.

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 11
AND [PARENT_UNIQUE_NAME] = '20000000000000009'

Ostrzeżenie

Nazwa kolumna PARENT_UNIQUE_NAME, muszą być ujęte w nawiasy, aby odróżnić go od zastrzeżonego słowa kluczowego o tej samej nazwie.

Oczekiwane wyniki:

NAZWA_WĘZŁA	NODE_CAPTION	NODE_PROBABILITY
3000000000000000900000000	Roweru kupującego -> Stan cywilny = Brak	0
3000000000000000900000001	Roweru kupującego -> Stan cywilny = S	0.457504004
3000000000000000900000002	Roweru kupującego -> Stan cywilny = M	0.542495996

Tabela NODE_DISTRIBUTION

kolumna tabela zagnieżdżonej, NODE_DISTRIBUTION, zazwyczaj zawiera informacje statystyczne dotyczące dystrybucji wartości w węźle.W modelu Naive Bayes tej tabela jest wypełniane tylko dla następujących węzłów:

Typ węzła	Zawartość tabela zagnieżdżonej
Model główny (1)	Puste.
Węzeł Statystyka kredytu marginalnego (24)	Zawiera informacje podsumowujące dla atrybutów wszystkie przewidywalne i atrybuty wprowadzania cały zestaw danych szkolenia.
Atrybut przewidywalny (9)	Puste.
Atrybut wejściowy (10)	Puste.
Stan wejściowego atrybut (11)	Statystyki, opisujące dystrybucji wartości w dane szkolenia dla danej kombinacji wartości przewidywalny i wprowadzania zawiera wartość atrybut.

Pobrać wzrost poziomu szczegółowości można używać identyfikatorów węzłów lub węzeł podpisów.Na przykład, poniższa kwerenda pobiera określonych kolumn z tabela NODE_DISTRIBUTION dla wejściowych tylko tych węzłów atrybut powiązanych wartości, 'Marital Status = S'.

SELECT FLATTENED NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM TM_NaiveBayes.content
WHERE NODE_TYPE = 11
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'

Oczekiwane wyniki:

NODE_CAPTION	t.ATTRIBUTE_NAME	t.ATTRIBUTE_VALUE	t.support	t.PROBABILITY	t.VALUETYPE
Roweru kupującego -> Stan cywilny = S	Kupujący Bike	Brak	0	0	1
Roweru kupującego -> Stan cywilny = S	Kupujący Bike	0	3783	0.472934117	4
Roweru kupującego -> Stan cywilny = S	Kupujący Bike	1	4216	0.527065883	4

W wyniki te wartości kolumna obsługi informuje zliczania z określonego stanu cywilnego klienci, którzy zakupili rowerów.Kolumna prawdopodobieństwa zawiera prawdopodobieństwo każda wartość atrybut obliczonej dla tylko tego węzła.Ogólne definicje terminów użytych w tabela NODE_DISTRIBUTION, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

Informacje w marginalnym węzeł Statystyka

W modelu Naive Bayes tabela zagnieżdżonej węzła marginalny statystyki zawiera dystrybucji wartości dla całego zestaw danych szkolenia.Na przykład, poniższa tabela zawiera częściową listę statystyk w tabeli zagnieżdżonej NODE_DISTRIBUTION modelu TM_NaiveBayes:

ATTRIBUTE_NAME	ATTRIBUTE_VALUE	OBSŁUGA	PRAWDOPODOBIEŃSTWO	VALUETYPE
Kupujący Bike	Brak	0	0	1
Kupujący Bike	0	8869	0.507263784	4
Kupujący Bike	1	8615	0.492736216	4
Stan cywilny	Brak	0	0	1
Stan cywilny	S	7999	0.457504004	4
Stan cywilny	M	9485	0.542495996	4
Całkowita dzieci	Brak	0	0	1
Całkowita dzieci	0	4865	0.278254404	4
Całkowita dzieci	3	2093	0.119709449	4
Całkowita dzieci	1	3406	0.19480668	4

Bike Buyer Kolumna jest włączone, ponieważ węzeł Statystyka marginalny zawsze zawiera opis atrybut przewidywalny i jego możliwych wartości.Wszystkie kolumny, które są wymienione reprezentuje atrybuty wejściowe, razem z wartościami, które były używane w modelu.Wartości można tylko brakujące, dyskretnego lub discretized.

W modelu Naive Bayes może być żadnych atrybutów ciągłej; w związku z tym, wszystkie dane liczbowe jest reprezentowany jako osobny (VALUE_TYPE = 4) lub discretized (VALUE_TYPE = 5).

A Missing wartość (VALUE_TYPE = 1) jest dodawany do każdego atrybut wejściowe i wyjściowe do reprezentowania potencjalne wartości, które nie były obecne w dane szkolenia.Należy uważać rozróżnić "Brak" jako ciąg i domyślnie Missing wartości.Aby uzyskać więcej informacji, zobacz Brak wartości (Analysis Services - wyszukiwania danych).