krzyżowe sprawdzanie poprawności (Analysis Services — wyszukiwanie danych)
krzyżowe sprawdzanie poprawności jest standardowym narzędziem w analiz i jest ważną funkcją dla pomaga rozwijanie i dostosowywanie modeli wyszukiwanie danych.Po utworzeniu struktura wyszukiwania i górnictwo powiązanych modeli do sprawdzenia poprawności modelu służy sprawdzania krzyżowe sprawdzanie poprawności.krzyżowe sprawdzanie poprawności ma następujące aplikacje:
Sprawdzanie poprawności niezawodności wyszukiwania określonego modelu.
Szacowanie wiele modeli z pojedynczą instrukcją.
Tworzenie wielu modeli, a następnie identyfikacji najlepszych model oparty na danych statystycznych.
W tej sekcji opisano sposób wykorzystania funkcji sprawdzania krzyżowe sprawdzanie poprawności w SQL Server 2008 i jak interpretować wyniki sprawdzania krzyżowe sprawdzanie poprawności dla określonego modelu lub zestaw danych. krzyżowe sprawdzanie poprawności może być wykonywany jako zestaw procedur przechowywanych.krzyżowe sprawdzanie poprawności z projektantem wyszukiwanie danych, można użyć w Business Intelligence Development Studio.
Omówienie procesu sprawdzania krzyżowe sprawdzanie poprawności
krzyżowe sprawdzanie poprawności składa się z dwóch faz, szkolenia i generowanie wyników.Te fazy obejmuje następujące kroki:
Wybieranie struktura wyszukiwania do miejsce docelowe.
Określenie wzorów, która ma być testowana.
Określanie liczby zgięcia, do którego struktury danych partycji.
Usługi Analysis Services tworzy i przygotowuje tyle modele są zgięcia.
Aby generować wyniki, należy określić parametry do testowania wyszkolonych modeli.
Określanie urządzenie źródłowe testowania danych.(Ta funkcja jest dostępna tylko wtedy, gdy używasz procedury przechowywane).
Określanie atrybut przewidywalne przewidywane wartości, a próg dokładności.
Usługi Analysis Services zwraca zestaw dokładności metryki dla każdej karty składanej jak w każdym modelu.Dokładność metryki dla zestaw danych mogą również zwracać jako całości.
Za pomocą sprawdzania krzyżowe sprawdzanie poprawności w Konstruktorze wyszukiwanie danych
Jeśli krzyżowe sprawdzanie poprawności przy użyciu karty sprawdzania poprawności innej części widoku Wykres dokładność wyszukiwania w Business Intelligence Development Studio, można skonfigurować parametry szkolenia i dokładność wyniki w jednym formularzu.Dzięki temu łatwiej zestaw up i obejrzeć wyniki.Można mierzyć dokładności wszystkich modeli wyszukiwania związanych z jednym struktura wyszukiwania a następnie natychmiast obejrzeć wyniki w raporcie HTML.
Aby uzyskać więcej informacji na temat formatu raportu i metryk dokładności, dostarczanych przez sprawdzanie krzyżowe sprawdzanie poprawności zobacz Raport sprawdzania poprawności między (Analysis Services — wyszukiwanie danych).
Aby uzyskać informacje dotyczące sposobu konfigurowania parametrów sprawdzania krzyżowe sprawdzanie poprawności w Business Intelligence Development Studio zobacz Cross-Validation Tab (Mining Accuracy Chart View).
Za pomocą krzyżowe sprawdzanie poprawności przechowywanych procedur
Dla użytkowników zaawansowanych krzyżowe sprawdzanie poprawności jest również dostępna za pośrednictwem systemu cztery przechowywanej procedury.Procedury przechowywane mogą być uruchamiane przez łączenie się z wystąpienie programu Analysis Services 2008 z programu SQL Server Management Studio lub z dowolnej aplikacji kod zarządzany.
Procedury przechowywane są pogrupowane według typu model wyszukiwania.Pierwsza para procedur współpracuje z klastrowanie tylko modeli.Druga para procedur współpracuje z innymi modelami wyszukiwania.
Uwaga
krzyżowe sprawdzanie poprawności nie może być używana z dowolnego modelu, który zawiera kolumna klucz czas lub kolumna klucz SEQUENCE.
Dla każdego typu model wyszukiwania istnieją dwie procedury przechowywanej.Pierwsza procedura tworzy liczbę partycji, jak określono w obrębie danego zestaw danych, a następnie zwraca dokładności wyniki dla każdej partycji.Dla każdego metryki Analysis Services oblicza średnią i odchylenie standardowe dla partycji.
Druga procedura przechowywana zestaw danych nie partycji, ale generuje dokładności wyniki dla określonego zestaw danych jako całości.Jeśli struktura wyszukiwania i jego modeli zostały już podzielony na partycje i przetwarzane, można użyć drugiego procedura przechowywana.
Partycja danych i wygenerowania miar dla partycji
SystemGetCrossValidationResults (Analysis Services — wyszukiwanie danych)
SystemGetClusterCrossValidationResults (Analysis Services — wyszukiwanie danych)
Generowanie metryki dla całego zestaw danych
SystemGetAccuracyResults (Analysis Services — wyszukiwanie danych)
SystemGetClusterAccuracyResults (Analysis Services — wyszukiwanie danych)
Konfigurowanie sprawdzania krzyżowe sprawdzanie poprawności
Można dostosować sposób działania tego krzyżowe sprawdzanie poprawności kontrolować liczbę przekrój poprzeczny, modele, które są testowane i na pasku dokładność do przewidywania.Jeżeli korzystasz z procedur przechowywanych sprawdzania krzyżowe sprawdzanie poprawności, można również określić zestaw danych, który jest używany do sprawdzania poprawności modeli.Bogactwo tej opcji oznacza, łatwo może wygenerować różne wyniki, które następnie muszą być porównywane i analizować wiele zestawów.
W tej części podano informacje ułatwiające odpowiednio skonfigurować sprawdzanie krzyżowe sprawdzanie poprawności.
Ustawianie liczby partycji
Po określeniu liczby partycji można określić, jak wiele modeli tymczasowe zostaną utworzone.Dla każdej partycji przekroju danych jest oznaczony jako zestaw testów i nowego modelu jest tworzona przez szkolenie dotyczące pozostałych danych, nie znajduje się w tej partycji.Ten proces jest powtarzany aż do chwili, kiedy usługi Analysis Services ma utworzone i przetestowane określoną liczbę modeli.Dane, które określono jako dostępne do krzyżowe sprawdzanie poprawności są rozdzielone po równo między wszystkich partycji.
Przykład diagramu ilustruje wykorzystanie danych, jeśli podano trzy zgięcia.
W scenariuszu w diagramie struktura wyszukiwania zawiera wstrzymanie zestaw danych, który jest używany do testowania, ale badania zestaw danych nie została dołączona do sprawdzania krzyżowe sprawdzanie poprawności.W wyniku, wszystkie dane w szkolenie zestaw danych, 70 procent danych w strukturze wyszukiwania jest używana do sprawdzania krzyżowe sprawdzanie poprawności.Raport krzyżowe sprawdzanie poprawności jest wyświetlana całkowita liczba przypadków, w każdej partycji.
Można również określić ilość danych, które jest używane podczas krzyżowe sprawdzanie poprawności, określając liczbę przypadków ogólnej do używania.W przypadkach zostaną rozdzielone po równo między wszystkie zgięcia.
Jeśli struktura wyszukiwania jest przechowywany w wystąpieniu programu SQL Server Analysis Services maksymalnej wartości, które zestaw dla numeru zgięcia jest 256 lub liczba przypadków, w zależności od tego, która jest mniejsza.W przypadku korzystania z sesja struktura wyszukiwania, maksymalna liczba zgięcia wynosi 10.
Uwaga
Jak zwiększyć liczbę zgięcia, czas wymagany do przeprowadzenia krzyżowe sprawdzanie poprawności zwiększa w związku z tym, ponieważ model musi być generowane i przetestowane pod kątem każdej karty składanej jak.Jeśli jest zbyt duża liczba zgięcia, mogą wystąpić problemy z wydajnością.
Definiowanie testowania danych
Po uruchomieniu procedur przechowywanych, które obliczają dokładność, SystemGetAccuracyResults (Analysis Services — wyszukiwanie danych) lub SystemGetClusterAccuracyResults (Analysis Services — wyszukiwanie danych), można określić urządzenie źródłowe danych, które są wykorzystywane do badania podczas krzyżowe sprawdzanie poprawności, korzystając z kombinacji następujących opcji:
Użyj tylko dane szkolenia.
Dołączyć istniejący zestaw testowania danych.
Użyj tylko testowania zestaw danych.
Stosować istniejące filtry do każdego modelu.
Ustawić dowolną kombinację szkolenia, badania zestaw i filtry modelu.
Kontrolować układ testowania zestaw danych przez podanie wartości dla DataSet parametr.
If you perform cross-validation by using the Cross-Validation report in theData Mining Designer, you cannot change the data set that is used.Domyślnie używane są przypadki szkoleń dla każdego modelu.Jeśli filtr jest skojarzony z modelem, stosowany jest filtr.
Sprawdzanie poprawności krzyża z modeli wyszukiwania filtrowania
Jeśli testujesz kilka modeli wyszukiwania i modele są filtry, jest filtrowana osobno każdego modelu.Nie można dodać filtr do modelu ani zmienić filtr dla modelu podczas sprawdzania krzyżowe sprawdzanie poprawności.
Ponieważ krzyżowe sprawdzanie poprawności według wartości domyślnych badania wszystkich modeli wyszukiwania związanych ze strukturą, może pojawić się niezgodne wyniki, jeśli w niektórych modelach jest zainstalowany odpowiedni filtr, a inne nie.W celu zapewnienia, że porównywane są tylko te modele, które mają ten sam filtr, należy użyć procedury przechowywane i określić listę modeli wyszukiwania.Można również użyć do zapewnienia, że spójny zestaw danych jest używana dla wszystkich modeli tylko wyszukiwania struktury badania ustawione nie filtry.
Ustawianie próg dokładność
Próg stanu umożliwia ustawienie pasek dokładności prognoz.W każdym z przypadków modelu oblicza prawdopodobieństwo, o nazwie przewidywanie prawdopodobieństwa, czy stan przewidywane jest poprawna.Jeśli prawdopodobieństwo predict przekracza pasek dokładności, przewidywanie jest liczony jako poprawne; Jeśli nie, przewidywanie jest liczony jako niepoprawne.Kontrolowanie tej wartości przez ustawienie Próg stanu liczbę z zakresu od 0.0 do 1.0, których numery bliżej 1 wskazuje, silne poziom zaufania prognoz, a numery bliżej na wartość 0 oznacza, że przewidywanie jest mniej prawdopodobne były prawdziwe.Wartość domyślna dla próg stanu jest NULL, co oznacza, że przewidywane stanu z najwyższym prawdopodobieństwa jest uważana za wartości miejsce docelowe.
Uwaga
zestaw wartość równą 0. 0, ale jest pozbawione sensu, ponieważ każdy przewidywanie będą zliczane, jak rozwiązać problem, nawet te z zerową prawdopodobieństwa.Należy zachować ostrożność nie do przypadkowego zestaw Próg stanu to 0.0.
Na przykład, mają trzy modele, które przewidzieć, kolumna [Bike Buyer], a wartość, która ma zostać dokonana prognoza wynosi 1, znaczenie "tak, będzie zakupić. „ Tych trzech modelach zwracają przewidzieć, prognoz z nimi prawdopodobieństwa 0,05, 0,15 i 0,8. Jeśli użytkownik zestaw próg stanu do 0,10, dwa prognoz są liczone jako poprawne.Jeśli użytkownik zestaw próg stanu do 0,5, tylko jeden model jest liczony jako mające zwrócony poprawny przewidywanie.Użycie wartości domyślnej null, prognozowania najbardziej prawdopodobne jest liczony jako poprawne.W tym przypadek wszystkie trzy prognoz będzie traktowany jako poprawne.
Metryki w Cross-sprawdzanie poprawności
Dokładność różnych miar są generowane w zależności od określonego typu z model wyszukiwania, typ danych atrybut przewidywalny i wartość atrybut dający się przewidzieć ewentualne.W tej sekcji definiuje podstawowe metryki dla odwołania.Aby uzyskać listę wskaźników dokładności, które są zwracane w raporcie dla każdego modelu, pogrupowane według typów zobacz Raport sprawdzania poprawności między (Analysis Services — wyszukiwanie danych).
Miara |
Dotyczy |
Implementacja |
---|---|---|
Klasyfikacja: wartość true pozytywne, false pozytywne, prawdziwe ujemne, false ujemne |
Atrybut discrete, wartość jest określona |
Liczba przypadków partycji, gdzie przewidywania prawdopodobieństwo jest większy niż próg stanu i dopasowuje stan przewidywane miejsce docelowe stanu. |
Klasyfikacja: przebiegu/niepowodzenie |
Atrybut discrete, nie określone miejsce docelowe |
Liczba przypadków partycji, gdzie dopasowuje stan przewidywane stanu docelowego i przewidywania prawdopodobieństwa jest większa niż 0. |
Podnieś |
Atrybut discrete.Wartość miejsce docelowe może być określona, ale nie jest wymagane. |
Prawdopodobieństwo dziennika.Dla wielu prognoz wynik dziennika jest sumą w dzienniku rzeczywiste prawdopodobieństwa. |
Wynik dziennika |
Atrybut discrete.Wartość miejsce docelowe może być określona, ale nie jest wymagane. |
Prawdopodobieństwo stanu zestaw danych wejściowych z współczynnik prawdopodobieństwa dla każdego przewidywanie.Dla wielu przewidywania wyniku dziennika jest sumą likelihoods dziennika. Brak stanu nie jest włączony. |
Prawdopodobieństwo przypadek |
Klaster |
Suma prawdopodobieństwo klastra są widoczne w każdym z przypadków, podzielona przez liczbę przypadków, w partycji. |
Oznacza to błąd bezwzględne |
Atrybut ciągłe |
Suma bezwzględne błąd w partycji, podzielona przez liczbę przypadków. |
Błąd średnia kwadratowa |
Atrybut ciągłe |
Pierwiastek kwadratowy z wartości średniej kwadrat błędu dla partycji. |
Średnia główny kwadrat błąd |
Atrybut discrete.Wartość miejsce docelowe może być określona, ale nie jest wymagane. |
Pierwiastek kwadratowy z średnią kwadratów uzupełnienia wyniku prawdopodobieństwo, podzielona przez liczbę przypadków, w partycji. |
Średnia główny kwadrat błąd |
Atrybut discrete nie określony obiekt miejsce docelowe. |
Pierwiastek kwadratowy z średnią kwadratów uzupełnienia wyniku prawdopodobieństwo, podzielona przez liczbę przypadków, w partycji. |