Brak wartości (Analysis Services — wyszukiwanie danych)
Brak wartości mogą wyznaczać wiele różnych rzeczy w danych.Być może pole nie ma to zastosowanie, zdarzenie nie tak się stało, lub dane nie były dostępne.Może to być osoba, która wprowadzone dane nie znana jest wartość po prawej lub nie opieki nad, jeśli pole nie zostało wypełnione.Dlatego też Analysis Services zawiera dwa wyraźnie różnych mechanizmów zarządzania i obliczania tych brakujących wartości, znane również jako zerowe wartości.
Jeśli zadanie, które są w przypadku modelowania Określa, że kolumna nigdy nie muszą mieć brakujących wartości, należy użyć NOT_NULL, modelowania flagi podczas definiowania struktura wyszukiwania.Daje to pewność, że przetwarzanie zakończy się niepowodzeniem, jeśli przypadkiem nie ma odpowiednią wartość.Jeśli wystąpi błąd podczas przetwarzania modelu, można następnie zalogować się błąd i wykonać czynności mające na celu poprawienie dane, które podano w modelu.Istnieją różne narzędzie Wypełnienie według przykładu, pod warunkiem że w wyszukiwanie danych dodatki dla programu Excel lub narzędzie, za pomocą których można wywnioskować, a następnie wprowadź odpowiednie wartości, takie jak transformacja wyszukiwanie lub zadania danych programu Profiler w programie SQL Server integracja Services.
Istnieją jednak również wiele scenariuszy wyszukiwanie danych, w których brakuje wartości zawierają ważne informacje.Ogólnie rzecz biorąc, Analysis Services traktuje brakujące wartości jako dostarczają informacji i dostosowuje prawdopodobieństw włączenie brakujące wartości do obliczenia. W ten sposób można mieć pewność, że modele są zbilansowane i nie waga zbyt mocno przypadkach istniejący.W tej sekcji wyjaśniono, jak wartości są definiowane i liczone jako Brak w modelach, zezwolić na wartości null.W tym temacie opisano sposób przetwarzania algorytmów wyszukiwanie danych i te Missing wartości podczas tworzenia modelu.
Uwaga
Każdy algorytm niestandardowe algorytmów, które mogą mieć uzyskano ze strony trzeciej, dodatek typu plug-in, w tym może obsłużyć wartości Brak inaczej.
Za pomocą brak wartości w polu modele
Algorytm wyszukiwanie danych brakujące wartości są dostarczają informacji.przypadek tabel Missing to stan ważne, podobnie jak inne. Ponadto model wyszukiwanie danych można użyć innych wartości do przewidywania, czy wartość Brak.Innymi słowy fakt, że brak wartości nie jest traktowana jako błąd.
Podczas tworzenia model wyszukiwanie danych, Missing stan jest automatycznie dodawane do modelu wszystkich kolumn discrete. Na przykład, jeśli kolumna danych wejściowych dla płeć zawiera dwóch możliwych wartości męski i gniazdowy, trzecia wartość jest automatycznie dodawany do reprezentowania Missing wartość i histogramu, pokazujący dystrybucji wszystkich wartości w kolumnie zawsze zawiera liczbę przypadków z Missing wartości. kolumna płeć nie brakuje żadnych wartości, histogram pokazuje, że brak stanu znajduje się w spraw.
W tym Missing stan domyślnie ma sens, jeśli uważasz, że dane mogą nie mieć przykłady wszystkie możliwe wartości i czy nie ma być model wyłączenie możliwości tak, ponieważ nie było żadnych przykład danych. Na przykład jeśli dane dotyczące sprzedaży dla Sklepu był wszystkich klientów, którzy zakupionych określonego produktu stało się kobiety, nie należy do tworzenia modeli, które przewiduje, że tylko kobiet nabyć produktu.Zamiast tego Analysis Services dodaje symbolu zastępczego dla dodatkowych Nieznana wartość, o nazwie Missing, jako sposób obsługa możliwości innych stanów.
Na przykład poniższej tabela rozkładu wartości dla węzła (wszystko) w modelu drzewo decyzyjne utworzone samouczek Bike kupującego.W scenariuszu przykładzie kolumna [Bike Buyer] jest atrybut przewidywalny, gdzie 1-wskazuje, "Tak", a wartość 0 wskazuje "Nie".
Wartość |
Przypadków |
---|---|
0 |
9296 |
1 |
9098 |
Brak |
0 |
Rozkład ten zawiera około połowy nabywców, którzy zakupili roweru i połowa ma nie.Ten określony zestaw danych jest bardzo czysty, dlatego każdy przypadek ma wartość kolumna [Bike Buyer], a liczba Missing wartości to 0. Niemniej jednak, jeśli w każdym przypadek miał wartość null pole [Bike BuyerAnalysis Services czy są liczone jako przypadek z danym wierszem Missing wartość.
Jeśli dane wejściowe są ciągłego kolumna, model rejestruje dwóch możliwych stanów atrybut: Existing i Missing. Innymi słowy kolumna zawiera wartości typu niektóre dane numeryczne, albo zawiera wartość nie.W przypadkach, które mają wartość model oblicza średnią, odchylenie standardowe i inne istotne dane statystyczne.W przypadkach, które mają wartość nie, model zawiera liczbę Missing vales i odpowiednio ustawia prognoz. metoda dostosowywania przewidywanie różni się w zależności od algorytmu i jest opisany w poniższej sekcji.
Uwaga
Atrybuty tabela zagnieżdżonej brakuje wartości nie są dostarczają informacji.Na przykład, jeśli klient nie ma zakupione produktu, zagnieżdżone Produkty tabela nie będzie zawierało wiersz odpowiadający tego produktu, a model wyszukiwania nie utworzy atrybut Brak produktu.Jednak jeżeli interesuje Cię klientów, którzy zakupili niektórych produktów, można utworzyć modelu, który jest filtrowana w innych niż istnienia produktów wymienionych w tabela zagnieżdżonej przy użyciu instrukcja NOT EXISTS w filtrze modelu.Aby uzyskać więcej informacji zobaczJak Zastosować filtr do model wyszukiwania.
Dopasowywanie prawdopodobieństwa dla brakujących wartości
W uzupełnieniu do zliczania wartości, Analysis Services oblicza prawdopodobieństwo, wartości zestaw danych. To samo dla Missing wartości. Na przykład w poniższej tabela przedstawiono prawdopodobieństw w przypadkach, w poprzednim przykładzie:
Wartość |
Przypadków |
Prawdopodobieństwo |
---|---|---|
0 |
9296 |
50.55% |
1 |
9098 |
49.42% |
Brak |
0 |
0.03% |
Pozornie nieparzystej, prawdopodobieństwo Missing wartość jest obliczana jako 0.03 %, gdy liczba przypadków jest równa 0. W rzeczywistości to zachowanie jest zgodne z projektem i reprezentuje dopasowania, umożliwiającą modelu obsługi wartości nieznany poprawnego działania.
Ogólnie rzecz biorąc prawdopodobieństwa jest obliczany jako przypadkach korzystna, podzielona przez wszystkich możliwych przypadków.W tym przykładzie algorytm mieszania oblicza sumę sprawy, które spełniają określony warunek ([Bike Buyer] = 1 lub [Bike Buyer] = 0) i dzieli tę liczbę przez całkowitą liczbę wierszy.Jednak do konta dla Missing przypadków 1 jest dodawany do liczby wszystkich możliwych przypadków. W wyniku prawdopodobieństwo przypadek nieznanych nie jest już zero, jednak bardzo niewielkiej ilości, co oznacza, że stan jedynie improbable, niemożliwe.
Dodanie małą Missing wartość nie ulega zmianie w wyniku predykcyjne, jednak umożliwia lepsze modelowania w scenariuszach, w którym dane historyczne nie obejmuje wszystkich możliwych wartości.
Uwaga
Dostawców wyszukiwanie danych różnią się w sposób ich obsługi brakujących wartości.Na przykład niektórzy dostawcy założono, że brakuje danych kolumna zagnieżdżonych jest reprezentacją rzadkie, ale brakuje brakujące dane kolumna nie są zagnieżdżone w losowo.
Jeśli masz pewność, że wszystkie wyniki są określone w danych oraz aby zapobiec jego regulację prawdopodobieństw, należy ustawić NOT_NULL, modelowania flagę kolumna w struktura wyszukiwania.
Obsługa specjalna Brak wartości w polu modele drzewo decyzyjne
Algorytm Microsoft algorytmów oblicza prawdopodobieństw dla brakujących wartości inaczej niż w innych algorytmów.Zamiast po prostu 1 aby całkowita liczba przypadków, algorytm drzewa decyzji dopasowuje dla stanów Brak przy użyciu formuły nieco inne.
W modelu drzewo decyzyjne prawdopodobieństwo stanu Brak jest obliczana w następujący sposób:
StateProbability = (NodePriorProbability) * (StateSupport + 1) / (NodeSupport + TotalStates)
Ponadto w programie SQL Server 2008 Analysis Services algorytm algorytmów zawiera dodatkowego dostosowania pomaga algorytm zrekompensować obecność filtry w modelu, który może być przyczyną wielu stanów mają być wykluczone podczas szkolenia.
W SQL Server 2008, jeśli stan, w którym znajduje się w czasie szkolenia, ale tak się dzieje z jest 0 obsługiwane w niektórych węzła, dokonywana jest standardowym korekty. Niemniej jednak jeśli stan nigdy nie wystąpi podczas szkolenia, algorytm ustawia prawdopodobieństwo dokładnie 0.To dostosowanie dotyczy nie tylko do stanu Brak, ale do UE znajdują się w danych szkoleniowych, które obsługują 0 w związku z filtrowania modelu.
Powoduje to dodatkowe dostosowanie następującej formuły:
StateProbability = 0,0 , jeżeli ten stan 0 pomocy technicznej w szkolenia ustawić
ELSE StateProbability = (NodePriorProbability) * (StateSupport + 1) / (NodeSupport + TotalStatesWithNonZeroSupport)
Efekt netto tej korekty jest do utrzymania stabilności w drzewie.