Artykuł
07/22/2011

Partycjonowanie danych do szkolenia i testowania zestawy (Analysis Services - wyszukiwania danych)

Oddzielenie danych do szkolenia i zestawów testów jest istotną częścią oceny modeli wyszukiwanie danych.Typically, when you partition a data set into a training set and testing set, most of the data is used for training, and a smaller portion of the data is used for testing.Usługi Analysis Services randomly samples the data to help ensure that the testing and training partitions are similar.Za pomocą podobnych danych szkolenia i badań, można zminimalizować skutki rozbieżności w danych i lepiej zrozumieć właściwości modelu.

Po przetworzeniu modelu przy użyciu zestaw szkolenia można przetestować modelu dokonywania przewidywań przeciwko zestaw testów.Ponieważ dane z badań zestaw zawiera już znanych wartości dla atrybut, który chcemy prognozować jest łatwe do ustalenia, czy model prób są poprawne.

Zazwyczaj przewidywanych dokładność model wyszukiwania jest mierzona przez Unieś lub dokładności klasyfikacji.Aby uzyskać więcej informacji o wykresach dźwigu oraz inne wykresy dokładności, zobacz Narzędzia do tworzenia wykresów dokładności modelu (Analysis Services - wyszukiwania danych).

Tworzenie partycji dla struktur wyszukiwania danych

W SQL Server 2008, partycji danych poziom struktura wyszukiwania.Informacje dotyczące rozmiaru partycji i danych w każdej partycji jest przechowywane ze strukturą i modeli, które są oparte na tej struktury można używać partycji kształcenia i testowania.

Partycję można zdefiniować na struktura wyszukiwania w następujący sposób:

Partycji struktury górnictwa, podczas tworzenia struktura wyszukiwania za pomocą Kreatora wyszukiwania danych
Modyfikowanie właściwości struktury w Struktury górnictwa kartę Projektant wyszukiwania danych.
Tworzenie i modyfikowanie struktur programowo za pomocą Analysis Management Objects (AMO) lub XML konsoli DDL (Data Definition Language).

Przy użyciu Kreatora wyszukiwania danych do partycji struktury górnictwo

Domyślnie po zdefiniowaniu źródła danych dla struktura wyszukiwania, Kreator wyszukiwania danych dzieli danych na partycje, 70 procent szkolenia i 30 procent badań.Jest to stosunek często używane do wyszukiwanie danych, ale z Usługi Analysis Services można zmienić ten stosunek do własnych wymagań.

Można również skonfigurować kreatora, aby zestaw maksymalna liczba przypadków szkolenia, lub można połączyć limitów, aby umożliwić maksymalny procent przypadkach do określonej maksymalnej liczby przypadków.Po określeniu maksymalny procent przypadków i maksymalna liczba przypadków Usługi Analysis Services używa mniejszych limitów dwóch jako rozmiar zestaw testów.Na przykład jeśli określisz wstrzymanie 30 procent dla badania sprawy i maksymalna liczba testów jako 1000 rozmiar zestaw testów nigdy nie przekroczy przypadkach 1000.Może to być przydatne, jeśli chcesz zapewnić rozmiar zestaw testów pozostaje zgodne, nawet jeśli jest dodawane do modelu w dane szkolenia.

Jeśli ten sam widok źródło danych dla górnictwa różnych struktur i chce mieć pewność, że jest podzielony na partycje danych w przybliżeniu ten sam sposób wszystkie struktury górnictwa i ich modeli, należy określić używany do zainicjowania losowe próbkowanie materiału siewnego.Podczas określania wartości dla HoldoutSeed, Usługi Analysis Services użyje tej wartości, aby rozpocząć próbkowanie.W przeciwnym razie próbkowanie algorytmu mieszania nazwę struktura wyszukiwania utworzyć wartość początkową.

Ostrzeżenie

Jeśli za pomocą utworzyć kopię struktury górnictwa EXPORT i IMPORT instrukcji nowej struktura wyszukiwania będzie miało tej samej definicji partycji, ponieważ proces eksportowania tworzy nowy identyfikator, ale używa tej samej nazwy.Jednak jeśli dwóch struktur górnictwo używać tego samego źródło danych, ale mają różne nazwy, partycje, które są tworzone dla każdej struktura wyszukiwania będą inne.

Modyfikowanie właściwości struktury

Jeśli tworzenie i przetwarzanie struktura wyszukiwania, a następnie później zdecyduje czy chcesz dodać partycję test, można zmodyfikować właściwości struktura wyszukiwania.Aby zmienić sposób, że dane jest podzielony na partycje, można edytować następujące właściwości:

Właściwość	Opis
HoldoutMaxCases	Określa maksymalną liczbę przypadków, aby dołączyć do badania zestaw.
HoldoutMaxPercent	Określa liczbę przypadków uwzględnione w zestawie testowania w procentach kompletny zestaw danych.Aby nie zestaw danych, czy określić 0.
HoldoutSeed	Określa wartość całkowitą używany jako materiału siewnego, wybierając losowo danych partycji.Wartość ta nie wpływa na liczbę przypadków w kształceniu zestaw; Zamiast tego zapewnia, można powtórzyć partycji.

Dodać lub zmienić istniejącą strukturę partycji, należy ponownie przetworzyć struktury i wszystkich skojarzonych modeli.Ponieważ dodanie partycji powoduje modelu przeszkolony na inny podzbiór danych, może zobaczyć różne wyniki z modelu.

Określanie programowo HOLDOUT

Można utworzyć podzielonym na partycje danych struktura wyszukiwania za pomocą instrukcji DMX, AMO lub XML DDL.

DMXw danych górnictwa rozszerzenia (DMX) języka instrukcja tworzenia struktury górnictwa został rozszerzony obejmują HOLDOUT Z klauzula.Składnia i przykłady instrukcja tworzenia struktury Zobacz TWORZENIE STRUKTURY GÓRNICTWA (DMX).

Ostrzeżenie

Instrukcja ALTER górnictwa struktury nie obsługuje użycia parametrów wstrzymanie.
ASSLmożna zarówno tworzenia nowych struktur górnictwo podzielonym na partycje i dodawać do istniejących partycji wyszukiwanie danych struktur za pomocą Usługi Analysis Services skryptów języka (ASSL).Aby uzyskać więcej informacji, zobacz Element MiningStructure (ASSL).
AMOmożna również wyświetlać i modyfikować partycje przy użyciu AMO.Aby uzyskać więcej informacji, zobacz Pojęcia AMO i Model obiektów.

Można przeglądać informacje o partycjach w istniejącej struktura wyszukiwania przez badanie wyszukiwania danych zestaw zestaw wierszy schematu.Można to zrobić, tworzenie zestawu wierszy DISCOVER wywołania lub można użyć kwerendy DMX.Aby uzyskać więcej informacji, zobacz Dane schematu górnictwo wierszy lub Wykonywanie kwerend wyszukiwania danych schematu zestawów wierszy (Analysis Services - wyszukiwania danych).

Za pomocą informacji o partycji

Domyślnie wszystkie informacje o partycjach szkolenia i badania są buforowane, tak, aby istniejące partycje można użyć szkolić, a następnie przetestować nowych modeli.Można również zdefiniować filtry do zastosowania do partycji wstrzymanie pamięci podręcznej, dzięki czemu można ocenić modelu na podzbiorów danych.Aby uzyskać więcej informacji, zobacz Tworzenie filtrów dla modeli wyszukiwania (Analysis Services - wyszukiwania danych).

Sposób, że sprawy są podzielone na partycji zależy sposób skonfigurować wstrzymanie i podawanych danych.Jeśli chcesz określić liczbę przypadków, w każdej partycji lub znaleźć szczegóły dotyczące przypadków ujętych w zestawy szkolenia i badań struktury modelu mogą wysyłać kwerendy przez utworzenie kwerendy DMX.Na przykład poniższa kwerenda zwraca przypadków, które były używane w zestaw szkoleniowy modelu.

SELECT * from <structure>.CASES WHERE IsTrainingCase()

Aby pobrać tylko przypadkach badania i dodatkowo filtrować przypadkach badania na jednej z kolumn w struktura wyszukiwania, należy użyć następującej składni:

SELECT * from <structure>.CASES WHERE IsTestCase() AND <structure column name> = '<value>'

Ograniczenia użycia Holdout

Aby użyć wstrzymanie, MiningStructureCacheMode Właściwość struktury górnictwo musi być zestaw na wartość domyślną KeepTrainingCases.Jeśli zmienisz CacheMode Właściwość ClearAfterProcessing, a następnie przetwórz ponownie struktura wyszukiwania, partycji zostaną utracone.
Nie można używać partycji czas modeli serii.Dlatego Partycjonowanie jest wyłączone, jeśli utworzyć partycję i określić, że Microsoft algorytm szeregu czasowego jest używane do tworzenia modelu.Partycjonowanie jest również wyłączona, jeśli struktura wyszukiwania zawiera kolumna klucza czasu poziom tabela zagnieżdżonej lub przypadek.
Można przypadkowo Konfigurowanie partycji używać do testowania kompletny zestaw danych i używać żadnych danych szkolenia.However, Usługi Analysis Services will raise an error so that you can correct the problem.Usługi Analysis Services also warns you when the structure is processed if more than 50 percent of the data has been held out for testing.
W większości przypadków domyślna wartość wstrzymanie 30 zapewnia prawidłową równowagę między szkolenia i testowania danych.Można w sposób prosty ustalić, jak duży zestaw danych powinno być zapewnienie wystarczające szkolenie lub małych jak zestaw szkoleniowy należy unikać nadmierne dopasowanie.Jednak po utworzeniu modelu można użyć krzyżowe sprawdzanie poprawności do oceny zestaw danych w odniesieniu do określonego modelu.Aby uzyskać więcej informacji, zobacz Sprawdzanie poprawności krzyżowych (Analysis Services - wyszukiwania danych).
Oprócz właściwość wymienione w poprzedniej tabela właściwość tylko do odczytu, HoldoutActualSize, o ile AMO i XML DDL.Jednakże rzeczywisty rozmiar partycji nie można określić dokładnie aż po przetworzeniu struktury, dlatego należy sprawdzić czy model został przetworzony, przed pobraniem wartości HoldoutActualSize właściwość.