model wyszukiwania Zawartości dla Naive modele Bayes (Analysis Services — wyszukiwanie danych)
W tym temacie opisano model wyszukiwania zawartość, która jest specyficzna dla modeli których używane są Microsoft Algorytm Bayes naive. Wyjaśnienie, jak interpretować dane statystyczne i struktury wspólne dla wszystkich typów modeli i ogólne definicje pojęć związanych z model wyszukiwania zawartości, zobacz temat Mining Model Content (Analysis Services - Data Mining).
Opis struktury modelu Bayes Naive
Model Naive Bayes ma węzeł pojedynczego obiektu nadrzędnego, który reprezentuje modelu i jej metadane i dole, po obiekcie nadrzędnym węźle dowolną liczbę niezależnych drzew, reprezentujące przewidywalne atrybutów, które wybrano.Oprócz drzewa dla atrybutów, każdy model zawiera jeden węzeł marginalna statystyk (NODE_TYPE = 26), która zapewnia opisowy statystyki dotyczące zestaw przypadków szkolenia.Aby uzyskać więcej informacji zobacz Informacje zawarte w węźle Marginal statystyki.
Dla każdego atrybut przewidywalny i wartość model wyprowadza drzewa, który zawiera informacje opisujące, w jaki sposób wprowadzania różnych kolumn wpływa na wynik to określonego przewidywalne.Każdego drzewa zawiera atrybut przewidywalny a jego wartością (NODE_TYPE = 9), a następnie szereg węzłów, które reprezentują wejściowy atrybuty (NODE_TYPE = 10).Ponieważ wejściowe atrybuty zwykle ma wiele wartości, każda wprowadzania atrybut (NODE_TYPE = 10) mogą mieć wiele węzłów podrzędność (NODE_TYPE = 11), dla określonego stanu atrybut.
Uwaga
Ponieważ model Naive Bayes nie zezwala na typy danych ciągłych, wszystkie wartości z kolumn danych wejściowych są traktowane jako discrete lub discretized.Można określić, w jaki sposób discretized wartość.Aby uzyskać więcej informacji, Jak Zmienianie Discretization kolumna w model wyszukiwania.
Model zawartości Naive modelu Bayes
W tej części podano szczegółowe i przykłady tylko dla tych kolumn w modelu zawartości wyszukiwania, które mają szczególne znaczenie w przypadku modeli Naive Bayes.
Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumny schematu zestaw wierszy, takie jak MODEL_CATALOG i MODEL_NAME, nie opisano w tym miejscu, lub objaśnienia model wyszukiwania terminologii zobacz Mining Model Content (Analysis Services - Data Mining).
MODEL_CATALOG
Nazwa bazy danych, w której przechowywane są w modelu.NAZWA_MODELU
Nazwa modelu.ATTRIBUTE_NAME
Nazwy atrybutów, które odpowiadają tym węźle.Model główny Nazwa atrybut przewidywalne.
Marginalna statystyk Nie dotyczy
**Atrybut przewidywalne** Nazwa atrybutu przewidywalne.
**Atrybut wejściowy** Nazwa atrybutu wejściowego.
**Stan wejściowego atrybutu** Nazwa tylko atrybut wejściowy.Aby uzyskać stan, należy użyć MSOLAP\_NODE\_SHORT\_CAPTION.
NAZWA_WĘZŁA
Nazwa węzła.Kolumna ta zawiera taką samą wartość jak NODE_UNIQUE_NAME.
Aby uzyskać więcej informacji o konwencjach nazewnictwa węzła zobacz Za pomocą nazwy węzłów i identyfikatory.
NODE_UNIQUE_NAME
Unikatowa nazwa węzła.Unikatowe nazwy są przypisywane zgodnie z Konwencją, który zawiera informacje o relacjach między węzłami.Aby uzyskać więcej informacji o konwencjach nazewnictwa węzła zobacz Za pomocą nazwy węzłów i identyfikatory.NODE_TYPE
Model Naive Bayes wyświetla następujące typy węzłów:ID typu węzła
Description
26 (NaiveBayesMarginalStatNode)
Zawiera statystyki, opisujące całego zestaw przypadków szkoleń dla modelu.
9 (Atrybut przewidywalne)
Zawiera nazwę przewidywalne atrybut.
10 (Atrybut danych wejściowych)
Zawiera nazwy kolumną atrybut wejściowy i węzły podrzędność, która zawiera wartości dla atrybutu.
11 (Stan atrybut danych wejściowych)
Zawiera wartości lub discretized wartości wszystkich danych wejściowych atrybut, które zostały skojarzone z atrybut określonych danych wyjściowych.
NODE_CAPTION
Etykieta lub podpis skojarzonego z węzłem.Ta właściwość jest głównie w celach wyświetlania.Model główny blank
Marginalna statystyk blank
**Atrybut przewidywalne** Nazwa atrybutu przewidywalne.
**Atrybut wejściowy** Nazwa atrybutu przewidywalny i bieżący atrybut wejściowy.Ex:
Rower kupujących-\> Okres ważności
**Stan wejściowego atrybutu** Nazwa atrybutu przewidywalny i bieżący atrybut wejściowy plus wartość wejściowa.Ex:
Rower kupujących-\> Wiek = Brak
CHILDREN_CARDINALITY
Liczba dzieci, który węzeł ma.Model główny Liczba przewidywalne atrybutów w modelu plus 1 dla węzła marginalna statystyki.
Marginalna statystyk Z definicji nie ma elementów podrzędnych.
Atrybut przewidywalne Liczba wejściowy atrybutów, które były związane z bieżącego atrybutu przewidywalne.
**Atrybut wejściowy** Liczba wartości discrete lub discretized dla bieżącego atrybutu wejściowego.
**Stan wejściowego atrybut** Zawsze 0.
PARENT_UNIQUE_NAME
Unikatowa nazwa węzła nadrzędnego.Aby uzyskać więcej informacji dotyczących węzłów nadrzędnych i podrzędność zobacz Za pomocą nazwy węzłów i identyfikatory.NODE_DESCRIPTION
Taka sama, jak podpis węzła.NODE_RULE
Reprezentacji XML podpis węzła.MARGINAL_RULE
Taka sama, jak reguły węzła.NODE_PROBABILITY
Prawdopodobieństwo związane z tym węźle.Model główny Zawsze 0.
Marginalna statystyk Zawsze 0.
Atrybut przewidywalne Zawsze 1.
**Atrybut wejściowy** Zawsze 1.
**Stan wejściowego atrybut** Liczba dziesiętna, reprezentującą bieżącą wartość prawdopodobieństwa.Wartości dla wszystkich stanów atrybut wejściowych w obszarze sumy nadrzędnego atrybut wejściowy węzła 1.
MARGINAL_PROBABILITY
Taka sama, jak prawdopodobieństwo węzła.NODE_DISTRIBUTION
Tabela zawierająca histogramu prawdopodobieństwa dla węzła.Aby uzyskać więcej informacji zobacz Tabela NODE_DISTRIBUTION.NODE_SUPPORT
Liczba przypadków, które obsługują ten węzeł.Model główny Liczba wszystkich przypadkach danych szkoleniowych.
Marginalna statystyk Zawsze 0.
Atrybut przewidywalne Liczba wszystkich przypadkach danych szkoleniowych.
**Atrybut wejściowy** Liczba wszystkich przypadkach danych szkoleniowych.
**Stan wejściowego atrybut** Liczba przypadków danych szkoleniowych, które zawierają tylko wartość określonego.
MSOLAP_MODEL_COLUMN
Etykiety używane w celach wyświetlania.Zwykle taka sama, jak ATTRIBUTE_NAME.MSOLAP_NODE_SCORE
Reprezentuje znaczenie atrybut lub wartość w ramach modelu.Model główny Zawsze 0.
Marginalna statystyk Zawsze 0.
Atrybut przewidywalne Zawsze 0.
**Atrybut wejściowy** Wynik interestingness dla bieżącego atrybutu wejściowych w stosunku do bieżącego atrybutu przewidywalne.
**Stan wejściowego atrybut** Zawsze 0.
MSOLAP_NODE_SHORT_CAPTION
Ciąg tekstowy, który reprezentuje nazwę lub wartość kolumna.Model główny Puste
Marginal statistics Blank
**Atrybut przewidywalne** Nazwa atrybutu przewidywalne.
**Atrybut wejściowy** Nazwa atrybutu wejściowego.
**Stan wejściowego atrybut** Wartość lub discretized wartość atrybut wejściowego.
Za pomocą nazwy węzłów i identyfikatory
Nadawanie nazw węzłów w modelu Naive Bayes zawiera dodatkowe informacje na temat typu węzła, aby ułatwić zrozumienie relacje między informacji w modelu.W poniższej tabela przedstawiono Konwencji dla identyfikatorów, które są przypisane do innego węzła typu.
Typ węzła |
Konwencja identyfikator węzła |
---|---|
Model główny (1) |
Zawsze 0. |
Marginalna statystyki węzła (26) |
Wartość IDENTYFIKATORA dowolnego. |
Atrybut przewidywalne (9) |
Liczba szesnastkowa, począwszy od 10 000 000 Przykład: 100000001 10000000b |
Atrybut wejściowy (10) |
Dwuczęściową liczba szesnastkowa, gdzie pierwsza część jest zawsze 20000000, a druga część rozpoczyna się od szesnastkowy identyfikator powiązanego przewidywalne atrybut. Przykład: 20000000b00000000 W takim przypadek powiązanych atrybut przewidywalne jest 10000000b. |
Stan wejściowego atrybut (11) |
Trzy części liczby szesnastkowej w przypadku gdy pierwsza część jest zawsze 30000000, druga część zaczyna się od szesnastkowy identyfikator powiązanego atrybut przewidywalny i trzecia część reprezentuje identyfikator wartości. Przykład: 30000000b00000000200000000 W takim przypadek powiązanych atrybut przewidywalne jest 10000000b. |
Identyfikatory służy do powiązania wejściowego atrybut i Stany przewidywalne atrybut.Na przykład poniższa kwerenda zwraca nazwy i podpisy dla węzłów, które reprezentują możliwych kombinacji wejściowych i przewidywalny atrybutów dla modelu, TM_NaiveBayes.
SELECT NODE_NAME, NODE_CAPTION
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 10
Oczekiwane wyniki:
NAZWA_WĘZŁA |
NODE_CAPTION |
---|---|
20000000000000001 |
Rower kupujących-> Commute odległość |
20000000000000002 |
Rower kupujących-> Angielski edukacja |
20000000000000003 |
Rower kupujących-> Angielski, zawód |
20000000000000009 |
Rower kupujących-> Stan cywilny |
2 000 000 000 000 000a |
Rower kupujących-> Liczba dzieci w Główny |
2000000000000000b |
Rower kupujących-> Region |
2000000000000000c |
Rower kupujących-> Całkowita elementy podrzędne |
Można użyć nazwy węzłów nadrzędnych do pobierania węzły podrzędność.Następująca kwerenda pobiera węzłów, które zawierają wartości Marital Status atrybut wraz z prawdopodobieństwem każdego węzła.
SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 11
AND [PARENT_UNIQUE_NAME] = '20000000000000009'
Uwaga
Nazwa kolumna, PARENT_UNIQUE_NAME, muszą być ujęte w nawiasy, aby odróżnić go od zarezerwowanym słowem kluczowym o takiej samej nazwie.
Oczekiwane wyniki:
NAZWA_WĘZŁA |
NODE_CAPTION |
NODE_PROBABILITY |
---|---|---|
3000000000000000900000000 |
Rower kupujących-> Stan cywilny = Brak |
0 |
3000000000000000900000001 |
Rower kupujących-> Stan cywilny = S |
0.457504004 |
3000000000000000900000002 |
Rower kupujących-> Stan cywilny = M |
0.542495996 |
Tabela NODE_DISTRIBUTION
kolumna tabela zagnieżdżonej, NODE_DISTRIBUTION, zazwyczaj zawiera statystyki dotyczące występowania wartości w węźle.W modelu Naive Bayes ta tabela jest wypełniana tylko dla następujących węzłów:
Typ węzła |
Zawartość tabela zagnieżdżonej |
---|---|
Model główny (1) |
Puste. |
Marginalna statystyki węzła (24) |
Zawiera informacje podsumowujące dla wszystkich przewidywalne atrybutów i wprowadzania atrybutów dla całego zestaw danych szkoleniowych. |
Atrybut przewidywalne (9) |
Puste. |
Atrybut wejściowy (10) |
Puste. |
Stan wejściowego atrybut (11) |
Statystyki, opisujące rozkład wartości w danych szkoleniowych dla danej kombinacji przewidywalne wartość i dane wejściowe zawiera wartość atrybut. |
Węzeł ID lub podpisy węzła umożliwia pobranie rosnące poziomy szczegółów.Na przykład poniższa kwerenda pobiera określonych kolumn z tabela NODE_DISTRIBUTION tylko tych węzłów atrybut wejściowe związane z wartości, 'Marital Status = S'.
SELECT FLATTENED NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM TM_NaiveBayes.content
WHERE NODE_TYPE = 11
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'
Oczekiwane wyniki:
NODE_CAPTION |
t.ATTRIBUTE_NAME |
t.ATTRIBUTE_VALUE |
t.SUPPORT |
t.PROBABILITY |
t.VALUETYPE |
---|---|---|---|---|---|
Rower kupujących-> Stan cywilny = S |
Rower kupujących |
Brak |
0 |
0 |
1 |
Rower kupujących-> Stan cywilny = S |
Rower kupujących |
0 |
3783 |
0.472934117 |
4 |
Rower kupujących-> Stan cywilny = S |
Rower kupujących |
1 |
4216 |
0.527065883 |
4 |
W tych wyniki wartości kolumna SUPPORT informuje liczba klienci z określonego stanu cywilnego zakupionych rowerów.kolumna prawdopodobieństwo znajduje się prawdopodobieństwo każda wartość atrybut obliczona tylko tym węźle.Aby uzyskać ogólne definicje terminów użytych w tabela NODE_DISTRIBUTION zobacz Mining Model Content (Analysis Services - Data Mining).
Informacje zawarte w węźle Marginal statystyki
W modelu Naive Bayes tabela zagnieżdżonej dla węzła marginalna statystyki zawiera rozkład wartości dla całego zbioru danych szkoleniowych.Na przykład poniższa tabela zawiera częściową listę statystyk w tabeli zagnieżdżonej NODE_DISTRIBUTION modelu TM_NaiveBayes:
ATTRIBUTE_NAME |
ATTRIBUTE_VALUE |
POMOC TECHNICZNA |
PRAWDOPODOBIEŃSTWO |
ODCHYLENIE |
WARTOŚCI |
---|---|---|---|---|---|
Rower kupujących |
Brak |
0 |
0 |
0 |
1 |
Rower kupujących |
0 |
8869 |
0.507263784 |
0 |
4 |
Rower kupujących |
1 |
8615 |
0.492736216 |
0 |
4 |
Stan cywilny |
Brak |
0 |
0 |
0 |
1 |
Stan cywilny |
S |
7999 |
0.457504004 |
0 |
4 |
Stan cywilny |
M |
9485 |
0.542495996 |
0 |
4 |
Całkowita elementy podrzędne |
Brak |
0 |
0 |
0 |
1 |
Całkowita elementy podrzędne |
0 |
4865 |
0.278254404 |
0 |
4 |
Całkowita elementy podrzędne |
3 |
2093 |
0.119709449 |
0 |
4 |
Całkowita elementy podrzędne |
1 |
3406 |
0.19480668 |
0 |
4 |
The Bike Buyer kolumna is included because the marginal statistics node always contains a description of the predictable atrybut and its possible values. Wszystkie pozostałe kolumny są wyświetlane reprezentuje atrybuty wejściowego, wraz z wartościami, które były używane w modelu.Wartości można tylko brakujące, discrete lub discretized.
W modelu Naive Bayes, może być bez ciągłego atrybutów, więc wszystkie dane liczbowe jest reprezentowana jako discrete (VALUE_TYPE = 4) lub discretized (VALUE_TYPE = 5).
A Missing wartość (VALUE_TYPE = 1) jest dodawana do każdej wejściowe i wyjściowe atrybut do reprezentowania potencjalnych wartości, które nie były obecne w danych szkoleniowych. Należy uważać, aby odróżnić "Brak", jak ciąg znaków i domyślny Missing wartość. Aby uzyskać więcej informacji zobaczBrak wartości (Analysis Services — wyszukiwanie danych).