Udostępnij za pośrednictwem


Dwuklasowy składnik lasu decyzyjnego

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Ten składnik służy do tworzenia modelu uczenia maszynowego na podstawie algorytmu lasów decyzyjnych.

Lasy decyzyjne są szybkimi, nadzorowanymi modelami zespołowymi. Ten składnik jest dobrym wyborem, jeśli chcesz przewidzieć cel z maksymalnie dwoma wynikami.

Informacje o lasach decyzyjnych

Ten algorytm lasu decyzyjnego to metoda uczenia zespołowego przeznaczona do zadań klasyfikacji. Metody zespołowe są oparte na ogólnej zasadzie, że zamiast polegać na jednym modelu, można uzyskać lepsze wyniki i bardziej uogólniony model, tworząc wiele powiązanych modeli i łącząc je w jakiś sposób. Ogólnie rzecz biorąc, modele zespołów zapewniają lepsze pokrycie i dokładność niż pojedyncze drzewa decyzyjne.

Istnieje wiele sposobów tworzenia poszczególnych modeli i łączenia ich w zespole. Ta konkretna implementacja lasu decyzyjnego działa, tworząc wiele drzew decyzyjnych, a następnie głosując na najpopularniejszą klasę wyjściową. Głosowanie jest jedną z lepiej znanych metod generowania wyników w modelu zespołowym.

  • Wiele pojedynczych drzew klasyfikacji jest tworzonych przy użyciu całego zestawu danych, ale różnych (zwykle losowych) punktów początkowych. Różni się to od podejścia lasu losowego, w którym poszczególne drzewa decyzyjne mogą używać tylko losowej części danych lub cech.
  • Każde drzewo w drzewie lasu decyzyjnego zwraca histogram nienormalizowanej częstotliwości etykiet.
  • Proces agregacji sumuje te histogramy i normalizuje wynik w celu uzyskania "prawdopodobieństwa" dla każdej etykiety.
  • Drzewa, które mają wysoką pewność przewidywania, będą miały większą wagę w ostatecznej decyzji zespołu.

Drzewa decyzyjne w ogóle mają wiele zalet dla zadań klasyfikacji:

  • Mogą przechwytywać nieliniowe granice decyzyjne.
  • Możesz trenować i przewidywać na dużo danych, ponieważ są one wydajne w obliczeniach i użyciu pamięci.
  • Wybór funkcji jest zintegrowany z procesami trenowania i klasyfikacji.
  • Drzewa mogą pomieścić hałaśliwe dane i wiele funkcji.
  • Są to modele nieparametryczne, co oznacza, że mogą obsługiwać dane z różnymi rozkładami.

Jednak proste drzewa decyzyjne mogą nadmiernie dopasować się do danych i są mniej uogólnialne niż zespoły drzew.

Aby uzyskać więcej informacji, zobacz Lasy decyzyjne.

Sposób konfigurowania

  1. Dodaj składnik Dwuklasowy las decyzyjny do potoku w usłudze Azure Machine Learning i otwórz okienko Właściwości składnika.

    Składnik można znaleźć w obszarze Uczenie maszynowe. Rozwiń węzeł Inicjowanie, a następnie pozycję Klasyfikacja.

  2. W polu Metoda ponownego próbkowania wybierz metodę użytą do utworzenia poszczególnych drzew. Możesz wybrać jedną z opcji Bagging lub Replikuj.

    • Bagging: Bagging jest również nazywany agregacji bootstrap. W tej metodzie każde drzewo jest uprawiane na nowej próbce, tworzone losowo przez próbkowanie oryginalnego zestawu danych z zastąpieniem, dopóki nie zostanie utworzony rozmiar oryginalnego zestawu danych.

      Dane wyjściowe modeli są łączone przez głosowanie, co jest formą agregacji. Każde drzewo w lesie decyzyjnym klasyfikacji generuje nienormalizowany histogram częstotliwości etykiet. Agregacja służy do sumowania tych histogramów i normalizacji w celu uzyskania "prawdopodobieństwa" dla każdej etykiety. W ten sposób drzewa, które mają wysoką pewność przewidywania, będą miały większą wagę w ostatecznej decyzji zespołu.

      Aby uzyskać więcej informacji, zobacz wpis w Wikipedii dotyczący agregacji Bootstrap.

    • Replikowanie: w replikacji każde drzewo jest trenowane na dokładnie tych samych danych wejściowych. Określenie, które predykat podziału jest używane dla każdego węzła drzewa pozostaje losowe, a drzewa będą zróżnicowane.

  3. Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .

    • Pojedynczy parametr: jeśli wiesz, jak skonfigurować model, możesz podać określony zestaw wartości jako argumenty.

    • Zakres parametrów: jeśli nie masz pewności co do najlepszych parametrów, możesz znaleźć optymalne parametry przy użyciu składnika Dostrajanie hiperparametrów modelu. Podajesz pewien zakres wartości, a trener iteruje wiele kombinacji ustawień, aby określić kombinację wartości, które dają najlepszy wynik.

  4. W polu Liczba drzew decyzyjnych wpisz maksymalną liczbę drzew decyzyjnych, które można utworzyć w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepsze pokrycie, ale czas trenowania wzrasta.

    Uwaga

    Jeśli ustawisz wartość na 1. Można jednak wyprodukować tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie są wykonywane żadne dalsze iteracji.

  5. Aby uzyskać maksymalną głębokość drzew decyzyjnych, wpisz liczbę, aby ograniczyć maksymalną głębokość dowolnego drzewa decyzyjnego. Zwiększenie głębokości drzewa może zwiększyć precyzję, na ryzyko nadmiernego dopasowania i zwiększonego czasu trenowania.

  6. W polu Minimalna liczba próbek na węzeł liścia wskaż minimalną liczbę przypadków, które są wymagane do utworzenia dowolnego węzła terminalu (liścia) w drzewie.

    Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład z wartością domyślną 1, nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej pięć przypadków spełniających te same warunki.

  7. Wybierz opcję Zezwalaj na nieznane wartości dla funkcji kategorii, aby utworzyć grupę dla nieznanych wartości w zestawach trenowania lub sprawdzania poprawności. Model może być mniej precyzyjny dla znanych wartości, ale może zapewnić lepsze przewidywania dla nowych (nieznanych) wartości.

    Jeśli usuniesz zaznaczenie tej opcji, model może akceptować tylko wartości zawarte w danych treningowych.

  8. Dołącz oznaczony zestaw danych i wytrenuj model:

    • Jeśli ustawisz opcję Utwórz tryb trenera na Pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model (Trenowanie modelu).

    • Jeśli ustawisz opcję Utwórz tryb trenera na Wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów dostrajania modelu.

    Uwaga

    Jeśli przekażesz zakres parametrów do trenowania modelu, zostanie użyta tylko wartość domyślna na liście pojedynczych parametrów.

    Jeśli przekażesz pojedynczy zestaw wartości parametrów do składnika hiperparametrów modelu dostrajania , gdy oczekuje ona zakresu ustawień dla każdego parametru, zignoruje wartości i używa wartości domyślnych dla ucznia.

    Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, określona pojedyncza wartość jest używana w trakcie zamiatania, nawet jeśli inne parametry zmienią się w zakresie wartości.

Wyniki

Po zakończeniu szkolenia:

  • Aby zapisać migawkę wytrenowanego modelu, wybierz kartę Dane wyjściowe w prawym panelu składnika Trenowanie modelu . Wybierz ikonę Zarejestruj zestaw danych , aby zapisać model jako składnik wielokrotnego użytku.

  • Aby użyć modelu do oceniania, dodaj składnik Score Model (Generowanie wyników dla modelu ) do potoku.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.