Sprawdzanie poprawności krzyżowych (Analysis Services - wyszukiwania danych)
Sprawdzanie poprawności krzyżowych jest standardem narzędzie w analytics i jest ważne funkcja pomagające rozwijanie i dostosowywanie modeli wyszukiwanie danych.Użyj sprawdzania poprawności krzyżowych po utworzeniu struktura wyszukiwania i związanych z modeli wyszukiwania do stwierdzenia ważności modelu.Sprawdzanie poprawności krzyżowe zawiera następujące aplikacje:
Sprawdzanie poprawności niezawodności określonego model wyszukiwania.
Ocena wielu modeli z jednym instrukcja.
Tworzenie wielu modeli, a następnie dobrać najlepszy model oparty na statystyki.
W tej sekcji opisano, jak używać funkcji sprawdzania poprawności krzyżowych w SQL Server 2008 i jak interpretować wyniki sprawdzania krzyżowe sprawdzanie poprawności dla określonego modelu lub zestaw danych. Można wykonać krzyżowo jako zestaw procedur przechowywanych.Za pomocą krzyżowe sprawdzanie poprawności od projektanta wyszukiwania danych w Business Intelligence Development Studio.
Omówienie procesu sprawdzania poprawności krzyżowe
Krzyżowo składa się z dwóch faz, szkolenia i generowania wyników.Fazy te obejmują następujące czynności:
Zaznaczanie miejsce docelowe struktura wyszukiwania.
Określenie wzorów, który chcesz przetestować.
Określanie liczby zgięcia, do którego struktury danych partycji.
Usługi Analysis Services tworzy i pociągów tyle modele są zgięcia.
Do generowania wyniki, należy określić parametry dla badania przeszkolony modeli.
Określanie źródło danych badań.(Ta funkcja jest dostępna tylko w przypadku użycia procedury przechowywane).
Określanie atrybut przewidywalny, prognozowanej wartości i dokładności próg.
Usługi Analysis Services zwraca zestaw dokładności metryki dla każdego składanie każdego modelu.Dokładność pomiarów dla zestaw danych może również zwracać jako całości.
W projektancie wyszukiwania danych przy użyciu krzyżowo
Jeśli krzyżowe sprawdzanie poprawności za pomocą krzyżowe sprawdzanie poprawności kartę widoku wykresu dokładności górnictwa w Business Intelligence Development Studio można skonfigurować szkolenia i dokładności wyniki parametrów w jednym formularzu.To ułatwia zestaw w górę i wyświetlić wyniki.Można zmierzyć dokładności wszystkich modeli wyszukiwania, które odnoszą się do struktury pojedynczej górnictwa, a następnie natychmiast wyświetlić wyniki w raporcie HTML.
Aby uzyskać więcej informacji o formacie raportu i metryk dokładności podane przez krzyżowe sprawdzanie poprawności, zobacz Raport sprawdzania poprawności krzyżowych (Analysis Services - wyszukiwania danych).
Aby uzyskać informacje dotyczące sposobu konfigurowania krzyżowe sprawdzanie poprawności parametry w Business Intelligence Development Studio, zobacz Karta krzyżowo (widok Wykres górnictwo dokładność).
Za pomocą krzyżowo procedur przechowywanych
Dla zaawansowanych użytkowników krzyżowo jest też dostępny jako cztery procedury składowane w systemie.Można uruchomić procedury przechowywane, łącząc się z wystąpienie programu Analysis Services 2008 z SQL Server Management Studio lub z dowolnej aplikacji kod zarządzany.
Procedury przechowywane są pogrupowane według model wyszukiwania typu.Pierwsza para procedur działa z klastrowanie tylko modele.Druga para procedur współpracuje z innych modeli wyszukiwania.
Ostrzeżenie
Sprawdzanie poprawności krzyżowe nie korzystać z dowolnego modelu, który zawiera kolumna klucza czasu lub SEKWENCJĘ klawiszy.
Dla każdego typu model wyszukiwania, istnieją dwie procedury przechowywanej.Pierwsza procedura tworzy liczbę partycji, jak określić wewnątrz zestaw danych i zwraca dokładności wyniki dla każdej partycji.Dla każdego metryki Analysis Services oblicza średnią i odchylenie standardowe dla partycji.
Druga procedura składowana zestawem danych nie partycji, ale generuje dokładności wyniki dla określonego zestaw danych jako całości.Można również użyć drugiej procedura składowana Jeśli struktura wyszukiwania i jego modeli już zostały podzielone na partycje i przetworzone.
Partycje danych i wygenerować metryki dla partycji
SystemGetCrossValidationResults (Analysis Services - wyszukiwania danych)
SystemGetClusterCrossValidationResults (Analysis Services - wyszukiwania danych)
Generowanie metryki dla całego zestaw danych
SystemGetAccuracyResults (Analysis Services - wyszukiwania danych)
SystemGetClusterAccuracyResults (Analysis Services - wyszukiwania danych)
Konfigurowanie sprawdzania poprawności-
Można dostosować sposób, krzyżowe sprawdzanie poprawności works, aby kontrolować liczbę przekrój poprzeczny, modele, które są testowane i pasek dokładność do prognoz.Jeśli używasz krzyżowe sprawdzanie poprawności procedur przechowywanych, można również określić zestaw danych, który jest używany do sprawdzania poprawności modeli.Bogactwo tej opcji oznacza może łatwo produkować wielu zestawów różnych wyniki, które następnie należy porównać i analizowane.
W tej części podano informacje ułatwiające konfigurowanie krzyżowe sprawdzanie poprawności odpowiednio.
Ustawianie liczby partycji
Po określeniu liczby partycji można określić, ile modeli tymczasowe zostaną utworzone.Dla każdej partycji przekroju danych jest oflagowana jako zestaw testów i nowy model jest tworzony przez szkolenie dotyczące pozostałych danych, nie w partycji.Ten proces jest powtarzany, dopóki nie utworzył i przetestowane określoną liczbę modeli Analysis Services.Dane, które określono jako dostępne dla krzyżowe sprawdzanie poprawności jest równomiernie między wszystkie partycje.
Przykład diagramu ilustruje wykorzystanie danych, jeśli podano trzy zgięcia.
W scenariuszu w diagramie struktura wyszukiwania zawiera dane wstrzymania zestawu, który jest używany do testowania, ale badania zestaw danych nie został dołączony do sprawdzania poprawności krzyżowych.W rezultacie wszystkie dane w zestaw danych szkoleniowych, 70 procent danych w strukturze górnictwo jest używany do sprawdzania poprawności krzyżowych.krzyżowe sprawdzanie poprawności Raportu jest wyświetlana całkowita liczba przypadków w każdej partycji.
Można również określić ilość danych jest używany podczas krzyżowe sprawdzanie poprawności, określając liczbę przypadków ogólnej, aby użyć.Przypadki są równomiernie rozłożone na wszystkie zgięcia.
Jeśli struktura wyszukiwania jest przechowywany w wystąpienie programu SQL Server Analysis Services, maksymalna wartość zestaw liczbę zgięcia jest 256 lub liczba przypadków, wartość jest mniejsza.Jeśli używasz struktura wyszukiwania sesja zgięcia maksymalna liczba wynosi 10.
Ostrzeżenie
Zwiększenie liczby zgięcia czas wymagany do wykonania krzyżowe sprawdzanie poprawności odpowiednio wzrasta, ponieważ model musi być generowane i badane na każdym składanie.Mogą wystąpić problemy z wydajnością, ponieważ jest zbyt duża liczba zgięcia.
Definiowanie testowania danych
Po uruchomieniu procedur przechowywanych, które obliczają dokładności, SystemGetAccuracyResults (Analysis Services - wyszukiwania danych) lub SystemGetClusterAccuracyResults (Analysis Services - wyszukiwania danych), można określić źródło danych, które służy do testowania podczas krzyżowe sprawdzanie poprawności, korzystając z kombinacji następujących opcji:
Użyj tylko dane szkolenia.
Obejmują badania istniejącego zestaw danych.
Użyj tylko badania zestaw danych.
Zastosowanie istniejące filtry do każdego modelu.
Ustawić dowolną kombinację szkolenie, badania zestaw i filtry modelu.
Sterowanie skład badania zestaw danych , podając wartość dla DataSet parametru.
If you perform cross-validation by using the Cross-Validation report in theData Mining Designer, you cannot change the data set that is used.Domyślnie są używane w przypadkach szkolenia dla każdego modelu.Jeśli filtr jest skojarzone z modelem, filtr jest stosowany.
Krzyżowe sprawdzanie poprawności modeli wyszukiwania przefiltrowanych
Jeśli testujesz kilka modeli wyszukiwania i modele są filtry, jest filtrowana osobno każdego modelu.Nie można dodać filtr do modelu lub zmienić filtr dla modelu podczas krzyżowe sprawdzanie poprawności.
Ponieważ krzyżowe sprawdzanie poprawności według wartooci domyolnych badań wszystkich modeli wyszukiwania skojarzonych z struktury, może pojawić się niezgodne wyniki, jeśli niektóre modele jest filtr, a inne nie.W celu zapewnienia porównać tylko modele, które mają ten sam filtr, należy użyć procedury przechowywane i określić listę modeli wyszukiwania.Można również użyć tylko struktura wyszukiwania ustawienie testu bez filtrów do zapewnienia, że spójny zestaw danych jest używany dla wszystkich modeli.
Ustawienie próg dokładności
Próg stanu umożliwia zestaw pasek dokładność do prognoz.przypadek każdego modelu oblicza prawdopodobieństwo, nazywane przewidywania prawdopodobieństwa, że Państwo przewidywane jest poprawna.Jeśli prawdopodobieństwo predict przekracza pasek dokładności, przewidywanie jest liczony jako poprawne; Jeśli nie, przewidywanie jest liczone jako niepoprawny.Kontrolowanie tej wartości przez ustawienie Progu Państwa na liczbę z zakresu od 0.0 do 1.0, gdzie bliżej 1 cyfry wysoki poziom zaufania do przewidywanie i liczby bliższe 0 wskazuje, że przewidywanie jest mniej prawdopodobne były prawdziwe.Domyślna wartość progu Państwa jest NULL, co oznacza przewidywane Państwo z najwyższym prawdopodobieństwa jest uważany za miejsce docelowe wartości.
Ostrzeżenie
zestaw wartość 0,0, ale jest bez znaczenia, ponieważ każdy przewidywanie będzie liczony, jak poprawić, nawet te z prawdopodobieństwem zero.Należy zachować ostrożność nie do przypadkowo zestaw Progu Państwa na 0.0.
Na przykład, mają trzy modele przewidywania kolumna [Bike kupujący] i który chcemy prognozować wartość 1, znaczenie "tak, zostanie Kup." Trzy modele zwracają prognoz z przewidywania prawdopodobieństwa 0,05, 0,15 i 0,8.Jeśli użytkownik zestaw progu Państwa do 0,10, dwa przewidywań są liczone jako poprawne.Jeśli użytkownik zestaw progu Państwa do 0,5, tylko jeden model jest liczony jako posiadające zwracany poprawny przewidywanie.Jeśli używasz wartości domyślnej null, przewidywanie najbardziej prawdopodobne jest liczony jako poprawne.przypadek wszystkich trzech prognoz będzie liczony jako poprawne.
Wykorzystywanymi w krzyżowo
Dokładność różnych miar są generowane w zależności od określonego typu model wyszukiwania, typ danych atrybut przewidywalny i wartość atrybut przewidywalny, jeżeli.Ta sekcja określa główne metryki dla odwołania.Lista metrykami dokładności są zwracane w raporcie dla każdego modelu, pogrupowane według typu, zobacz Raport sprawdzania poprawności krzyżowych (Analysis Services - wyszukiwania danych).
Miara |
Dotyczy |
Implementacja |
---|---|---|
Klasyfikacja: TRUE dodatnie, fałszywe pozytywne, prawdziwe negatywne, fałszywe negatywne |
Atrybut discrete określona wartość |
Liczba wierszy lub wartości w partycji, gdzie prawdopodobieństwo predict jest większa od progu Państwa, a Państwo przewidywane odpowiada miejsce docelowe Państwa. |
Klasyfikacja: przebieg i błędów |
Atrybut dyskretnych, nie określone miejsce docelowe |
Liczba wierszy lub partycji, na której Państwo przewidywane odpowiada wartości miejsce docelowe Państwo, i których wartość prawdopodobieństwa predict jest większa niż 0. |
Winda |
Atrybut dyskretnego.Można określić wartości docelowej, ale nie jest wymagane. |
Prawdopodobieństwo średniej dziennika dla wszystkich wierszy z wartości dla atrybut lokalizacji miejsce docelowe, gdy prawdopodobieństwo dziennika dla każdego przypadek jest obliczana jako Log(ActualProbability/MarginalProbability).Obliczyć średnią, suma wartości prawdopodobieństwa dziennika jest dzielona przez liczbę wierszy w zestawie danych wejściowych, z wyłączeniem wierszy z brakujących wartości dla miejsce docelowe atrybut.Dźwigu może być wartość dodatnia lub ujemna.Wartość dodatnia oznacza skutecznego modelu, który outperforms przypuszczenie losowe. |
Wynik dziennika |
Atrybut dyskretnego.Można określić wartości docelowej, ale nie jest wymagane. |
Dziennik rzeczywiste prawdopodobieństwo dla każdego przypadek sumowane, a następnie dzielona przez liczbę wierszy w zestawie danych wejściowych, z wyłączeniem wierszy z brakujących wartości dla miejsce docelowe atrybut.Ponieważ prawdopodobieństwo jest reprezentowany jako ułamek dziesiętny, dziennik wyniki są zawsze liczb ujemnych. |
Prawdopodobieństwo sprawy |
Klaster |
Suma prawdopodobieństwo klastra są widoczne we wszystkich przypadkach, podzielona przez liczbę przypadków na partycji, z wyłączeniem wierszy z brakujących wartości dla miejsce docelowe atrybut. |
Oznacza to błąd bezwzględne |
Atrybut ciągłe |
Suma bezwzględne błąd we wszystkich przypadkach w partycji, podzielona przez liczbę przypadków na partycji, z wyjątkiem przypadków z brakujących wartości. |
Błąd średnia kwadratowa |
Atrybut ciągłe |
Pierwiastek kwadratowy średniej kwadrat błąd dla partycji. |
Błąd kwadrat oznacza główny |
Atrybut dyskretnego.Można określić wartości docelowej, ale nie jest wymagane. |
Pierwiastek kwadratowy z średnią kwadratów uzupełnienia wyniku prawdopodobieństwo podzielona przez liczbę przypadków na partycji, z wyłączeniem wierszy z brakujących wartości dla miejsce docelowe atrybut. |
Błąd kwadrat oznacza główny |
Atrybut discrete nie określony obiekt miejsce docelowe. |
Pierwiastek kwadratowy z średnią kwadratów uzupełnienia wyniku prawdopodobieństwo podzielona przez liczbę przypadków na partycji, z wyjątkiem przypadków z brakujących wartości dla miejsce docelowe atrybut. |