Udostępnij za pośrednictwem


Informacje techniczne algorytm skojarzenia firmy Microsoft

The Microsoft Association Rules algorithm is a straightforward implementation of the well-known Apriori algorithm.

Oba Microsoft Algorytm drzewa decyzji, Microsoft Algorytm reguły skojarzenia można używać do analizowania skojarzeń, ale mogą być różne reguły, które zostały znalezione przez każdy algorytm. W modelu drzewa decyzji podziały, które mogą prowadzić do określonej reguły są oparte na informacji o zysku, w skojarzeniu modelu, zasady oparte są całkowicie na zaufania.W związku z tym w skojarzeniu modelu, silne reguły lub takie, które wskazuje na wysokie zaufania, nie musi być może interesujące nie dostarcza nowych informacji.

Implementacja algorytmu skojarzenia firmy Microsoft

Algorytm Apriori nie analizuje wzorców, ale raczej generuje i następnie zlicza itemsets kandydata.Element może reprezentować wydarzenia, produktu lub wartość atrybut, w zależności od typu danych, które są analizowane.

W najbardziej powszechnym typem zmienne typu logiczny skojarzenia modelu reprezentująca tak/nie lub wartość Brak/istniejący przypisanych do każdej właściwości, takie jak nazwa produktu lub zdarzenie.analiza koszyka zakupów jest przykładem skojarzenia modelu reguły używane zmienne typu logiczny do reprezentowania obecności lub nieobecności poszczególnych produktów w koszyku klienta.

Dla każdego itemset algorytm tworzy wyników reprezentujących pomocy technicznej i zaufania.Te wyniki może służyć do rangi i dziedziczyć itemsets interesujące reguł.

Skojarzenia modeli tworzone są atrybuty numeryczne.Jeśli atrybuty są stałe, liczby mogą być discretized, lub zgrupowane w pakiety.Następnie można obsługiwać discretized wartości, jako wartości logiczne lub jako pary atrybut wartość.

Pomoc techniczna, prawdopodobieństwo i ważność

Support, which issometimes referred to as frequency, means the number of cases that contain the targeted item or combination of items.W modelu można uwzględnić tylko te elementy, które mają co najmniej zadanym pomocy technicznej.

A częste itemset odnosi się do kolekcja elementów, których kombinacji elementów ma także obsługę powyżej progu, określone przez parametr MINIMUM_SUPPORT.Na przykład jeśli itemset jest {A, B, C}, a wartość MINIMUM_SUPPORT jest 10, każdego pojedynczego element A, B i C muszą znajdować się w przypadku co najmniej 10 mają zostać uwzględnione w modelu i kombinacji elementów {A, B, C} muszą również znajdują się w przypadku co najmniej 10.

Uwaga   Można również kontrolować liczbę itemsets w model wyszukiwania przez określenie maksymalnej długości itemset, których długość oznacza liczbę elementów.

Domyślnie obsługa dla określonego towaru lub itemset reprezentuje liczbę przypadków, które zawierają ten element lub elementy.Jednak można także wyrazić MINIMUM_SUPPORT jako procent całkowitej spraw zestaw danych, wpisując liczbę jako wartość dziesiętna mniejszej niż 1.Na przykład jeżeli określono wartość MINIMUM_SUPPORT 0.03 oznacza że co najmniej 3 % całkowitej przypadki, zestaw danych musi zawierać ten zapas lub itemset do włączenia w modelu.Należy wypróbować modelu do ustalenia, czy za pomocą liczby lub wartości procentowej sens więcej.

Z drugiej strony wyrażona nie jako liczba lub wartość procentowa progu dla reguł, ale jako prawdopodobieństwa, czasami nazywane zaufania.Na przykład jeśli itemset {A, B, C} występuje w przypadku 50 itemset {A, B, D} występuje również w przypadkach 50 i itemset {A, B} w innym przypadku 50, jest oczywiste, że {A, B} nie jest silne predykcyjne {c}.W związku z tym, aby waga poszczególnych wyników dla wszystkich znanych wyników, Analysis Services (takie jak oblicza prawdopodobieństwo poszczególnych reguł Jeśli {A, B} Then {C}) dzieląc obsługę itemset {A, B, C} przez obsługę wszystkich powiązanych itemsets.

Można ograniczyć liczbę reguł, które produkuje modelu przez ustawienie wartości dla MINIMUM_PROBABILITY.

For each rule that is created, Analysis Services outputs a score that indicates its importance, which is alsoreferred to as lift.Dźwig ważności jest obliczana inaczej itemsets i reguł.

Znaczenie itemset jest obliczany jako prawdopodobieństwo itemset, podzielona przez złożone prawdopodobieństwo poszczególne elementy itemset.Na przykład, jeśli itemset zawiera {A, B}, Analysis Services najpierw zlicza wszystkie sprawy, które zawierają takie połączenie A i B, która dzieli przez całkowita liczba przypadków, a następnie normalizuje prawdopodobieństwa.

Znaczenie reguły jest obliczany na podstawie dziennika prawdopodobieństwa prawej stronie reguły, biorąc pod uwagę po lewej stronie reguły.Na przykład w regule If {A} Then {B}, Analysis Services Oblicza współczynnik spraw z A i B over sprawy z B, ale bez A, a następnie normalizuje współczynnik ten przy użyciu skali logarytmicznej.

Wybieranie funkcji

The Microsoft Association Rules algorithm does not perform any kind of automatic feature selection.Zamiast tego algorytmu zawiera parametry, które kontrolują dane używane przez algorytm.To może zawierać ograniczenia dotyczące rozmiaru każdego itemset lub ustawiania pomocy technicznej maksymalny i minimalny wymagany do dodania itemset do modelu.

  • Aby odfiltrować elementy i zdarzeń, które są zbyt często używanych i w związku z tym uninteresting, można zmniejszyć wartość MAXIMUM_SUPPORT usunąć itemsets bardzo często z modelu.

  • Aby odfiltrować elementy i itemsets, które są rzadko, zwiększ wartość MINIMUM_SUPPORT.

  • Aby odfiltrować reguł, należy zwiększyć wartość MINIMUM_PROBABILITY.

Dostosowywanie algorytm reguły skojarzenia firmy Microsoft

The Microsoft Association Rules algorithm supports several parameters that affect the behavior, performance, and accuracy of the resulting model wyszukiwania.

Ustawianie parametrów algorytmu

Parametry dla model wyszukiwania można zmienić w dowolnym momencie przy użyciu projektanta wyszukiwanie danych w Business Intelligence Development Studio. Można również zmienić parametry programowo przy użyciu AlgorithmParameters() Kolekcja w AMO lub przy użyciu Element MiningModels (ASSL) w XMLA. W poniższej tabela opisano każdego parametru.

Uwaga

Nie można zmienić przy użyciu instrukcja DMX parametrów w istniejącego modelu; należy określić parametry w modelu CREATE DMX lub ALTER STRUCTURE… WZÓR ADD podczas tworzenia modelu.

  • MAXIMUM_ITEMSET_COUNT
    Określa maksymalną liczbę itemsets do produkcji.Jeśli numer nie zostanie określona, używana jest wartość domyślna.

    Wartość domyślna to 200000.

    Uwaga

    Itemsets są uporządkowane według pomocy technicznej.Wśród itemsets, które obsługują te same kolejność jest dowolnego.

  • MAXIMUM_ITEMSET_SIZE
    Określa maksymalną liczbę elementów, które są dozwolone w itemset.Ustawienie wartości 0 określa, że nie jest ograniczona do rozmiaru itemset.

    Wartość domyślna to 3.

    Uwaga

    Zmniejszenie tej wartości potencjalnie umożliwia skrócenie czas, który jest wymagany do tworzenia modelu, ponieważ przetwarzanie modelu zatrzymuje się po osiągnięciu tego limitu.

  • MAXIMUM_SUPPORT
    Określa maksymalną liczbę przypadków, zawierający itemset obsługi.Parametr ten może służyć do usunięcia elementy, które są często wyświetlane i w związku z tym potencjalnie mają znaczenie niewiele.

    Jeśli ta wartość jest mniejsza niż 1, wartość stanowi procent całkowitego spraw.Wartości większej niż 1 reprezentują bezwzględne liczba przypadków, zawiera on itemset.

    Wartość domyślna to 1.

  • MINIMUM_IMPORTANCE
    Określa próg znaczenie dla reguł skojarzenia.Reguły z znaczenie mniejsza od tej wartości są odfiltrowywane.Jest ona dostępna w tylko Enterprise.

  • MINIMUM_ITEMSET_SIZE
    Określa minimalną liczbę elementów, które są dozwolone w itemset.Zwiększenie tego numeru modelu może zawierać mniej itemsets.Może to być przydatne, jeśli chcesz ignorować itemsets pojedynczy element, na przykład.

    Wartość domyślna to 1.

    Uwaga

    Ponieważ, nie może skrócić czas przetwarzania modelu zwiększając wartość minimalna Analysis Services należy obliczyć mimo to jako część przetwarzania prawdopodobieństw dla pojedynczych elementów. Jednak przez ustawienie wyższej wartości można odfiltrować itemsets mniejsze.

  • MINIMUM_PROBABILITY
    Określa minimalną prawdopodobieństwo, że reguła jest true.

    Na przykład jeśli użytkownik zestaw ta wartość 0,5, to mogą być generowane nie reguły za pomocą mniejszej niż pięćdziesiąt procent prawdopodobieństwa.

    Wartość domyślna to 0,4.

  • MINIMUM_SUPPORT
    Określa minimalną liczbę przypadków, które musi zawierać itemset przed algorytm generuje regułę.

    Jeśli użytkownik zestaw tę wartość na mniej niż 1, minimalna liczba przypadków jest obliczany jako procent całkowitej spraw.

    Jeśli użytkownik zestaw liczbę całkowitą większą niż 1, ta wartość określa minimalną liczbę przypadków jest obliczany jako liczba spraw, które musi zawierać element zestaw.Algorytm automatycznie może zwiększyć wartość tego parametru, jeśli pamięć jest ograniczona.

    Wartość domyślna to 0,03.Oznacza to, że mają zostać uwzględnione w modelu, an itemset musi znajdować się w co najmniej 3 % przypadkach.

  • OPTIMIZED_PREDICTION_COUNT
    Definiuje numery zapasów, które mają być buforowane optymalizacji przewidywanie.

    Wartość domyślna to 0.Gdy używana jest wartość domyślna, algorytm da tyle prognoz zgodnie z żądaniem w kwerendzie.

    Jeżeli określono wartość różną od zera OPTIMIZED_PREDICTION_COUNT, kwerendy przewidywanie może zwracać co najwyżej określoną liczbę elementów, nawet wtedy, gdy żądanie dodatkowych prognoz. Ustawienie wartości może jednak zwiększyć wydajność przewidywanie.

    Na przykład jeśli wartość jest ustawiona na 3, algorytm buforuje tylko 3 sztuki do przewidywanie.Można wyświetlić dodatkowe prognoz, które mogą być równie prawdopodobne, aby 3 elementy, które są zwracane.

Modelowanie flagi

Obsługiwane są następujące flagi modelowania do użytku z Microsoft Algorytm reguły skojarzenia.

  • NIEDOZWOLONE WARTOŚCI NULL
    Wskazuje, że kolumna nie może zawierać wartość null.Spowoduje błąd, jeśli Analysis Services napotyka wartość null podczas szkolenia modelu.

    Stosuje się do kolumna struktura wyszukiwania.

  • MODEL_EXISTENCE_ONLY
    Oznacza, że kolumna będą traktowane jako mające dwóch możliwych stanów: Missing i Existing. Wartość null jest brak wartości.

    Stosuje się do kolumna model wyszukiwania.

Wymagania

Model skojarzenia musi zawierać kolumnę klucz, wprowadzania kolumny i jedną przewidywalna kolumna.

Dane wejściowe i uzyskania przewidywalnej kolumny

The Microsoft Association Rules algorithm supports the specific input columns and predictable columns that are listed in the following tabela. Aby uzyskać więcej informacji na temat znaczenia typów zawartości w model wyszukiwania zobacz Typy zawartości (wyszukiwanie danych).

Kolumna

Typy zawartości

Atrybut wejściowy

Cykliczne, discrete, Discretized, klucz, tabela zamówiona

Atrybut przewidywalne

Cykliczne, discrete, Discretized tabela zamówiona

Uwaga

Obsługiwane są typy zawartości Cyclical i Zamówione, ale algorytm traktuje je jako discrete wartości i nie wykonuje przetwarzania specjalne.

Historia zmian

Microsoft Learning

Dodano opis parametru MINIMUM_IMPORTANCE.