Udostępnij za pośrednictwem


Wieloklasowy składnik lasu decyzyjnego

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj tego składnika, aby utworzyć model uczenia maszynowego na podstawie algorytmu lasu decyzyjnego. Las decyzyjny to model zespołu, który szybko tworzy serię drzew decyzyjnych podczas uczenia się na podstawie oznakowanych danych.

Więcej informacji o lasach decyzyjnych

Algorytm lasu decyzyjnego to metoda uczenia zespołowego klasyfikacji. Algorytm działa, tworząc wiele drzew decyzyjnych, a następnie głosując na najpopularniejszej klasie danych wyjściowych. Głosowanie jest formą agregacji, w której każde drzewo w lesie decyzyjnym klasyfikacji generuje histogram nienormalizowanej częstotliwości etykiet. Proces agregacji sumuje te histogramy i normalizuje wynik w celu uzyskania "prawdopodobieństwa" dla każdej etykiety. Drzewa, które mają wysoką pewność przewidywania, mają większą wagę w ostatecznej decyzji zespołu.

Drzewa decyzyjne w ogóle są modelami nieparametrycznymi, co oznacza, że obsługują dane z różnymi rozkładami. W każdym drzewie jest uruchamiana sekwencja prostych testów dla każdej klasy, zwiększając poziomy struktury drzewa do momentu osiągnięcia węzła liścia (decyzji).

Drzewa decyzyjne mają wiele zalet:

  • Mogą reprezentować nieliniowe granice decyzyjne.
  • Są one wydajne w obliczeniach i użyciu pamięci podczas trenowania i przewidywania.
  • Wykonują one zintegrowane wybieranie i klasyfikację funkcji.
  • Są one odporne na obecność hałaśliwych funkcji.

Klasyfikator lasu decyzyjnego w usłudze Azure Machine Learning składa się z zespołu drzew decyzyjnych. Ogólnie rzecz biorąc, modele zespołów zapewniają lepsze pokrycie i dokładność niż pojedyncze drzewa decyzyjne. Aby uzyskać więcej informacji, zobacz Drzewa decyzyjne.

Jak skonfigurować wieloklasowy las decyzyjny

  1. Dodaj składnik Multiclass Decision Forest do potoku w projektancie. Ten składnik można znaleźć w obszarze Uczenie maszynowe, Inicjowanie modelu i Klasyfikacja.

  2. Kliknij dwukrotnie składnik, aby otworzyć okienko Właściwości .

  3. W polu Metoda ponownego próbkowania wybierz metodę użytą do utworzenia poszczególnych drzew. Możesz wybrać jedną z opcji baggingu lub replikacji.

    • Bagging: Bagging jest również nazywany agregacji bootstrap. W tej metodzie każde drzewo jest uprawiane na nowej próbce, tworzone losowo przez próbkowanie oryginalnego zestawu danych z zastąpieniem, dopóki nie zostanie utworzony rozmiar oryginalnego zestawu danych. Dane wyjściowe modeli są łączone przez głosowanie, co jest formą agregacji. Aby uzyskać więcej informacji, zobacz wpis w Wikipedii dotyczący agregacji Bootstrap.

    • Replikowanie: w replikacji każde drzewo jest trenowane na dokładnie tych samych danych wejściowych. Określenie, które predykat podziału jest używane dla każdego węzła drzewa, pozostaje losowe, tworząc różne drzewa.

  4. Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .

    • Pojedynczy parametr: wybierz tę opcję, jeśli wiesz, jak skonfigurować model, i podaj zestaw wartości jako argumenty.

    • Zakres parametrów: wybierz tę opcję, jeśli nie masz pewności co do najlepszych parametrów i chcesz uruchomić zamiatanie parametrów. Wybierz zakres wartości do iterowania, a hiperparametry modelu dostrajania iterują we wszystkich możliwych kombinacjach podanych ustawień w celu określenia hiperparametrów, które generują optymalne wyniki.

  5. Liczba drzew decyzyjnych: wpisz maksymalną liczbę drzew decyzyjnych, które można utworzyć w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepsze pokrycie, ale czas trenowania może wzrosnąć.

    Jeśli ustawisz wartość na 1; Oznacza to jednak, że można wygenerować tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie są wykonywane żadne dalsze iteracji.

  6. Maksymalna głębokość drzew decyzyjnych: wpisz liczbę, aby ograniczyć maksymalną głębokość dowolnego drzewa decyzyjnego. Zwiększenie głębokości drzewa może zwiększyć precyzję, na ryzyko nadmiernego dopasowania i zwiększonego czasu trenowania.

  7. Liczba losowych podziałów na węzeł: wpisz liczbę podziałów do użycia podczas kompilowania każdego węzła drzewa. Podział oznacza, że funkcje na każdym poziomie drzewa (węzła) są losowo podzielone.

  8. Minimalna liczba próbek na węzeł liścia: wskaż minimalną liczbę przypadków, które są wymagane do utworzenia dowolnego węzła terminalu (liścia) w drzewie. Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł.

    Na przykład z wartością domyślną 1, nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej pięć przypadków spełniających te same warunki.

  9. Połącz oznaczony zestaw danych i wytrenuj model:

    • Jeśli ustawisz opcję Utwórz tryb trenera na Pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model (Trenowanie modelu).

    • Jeśli ustawisz opcję Utwórz tryb trenera na Wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów dostrajania modelu.

    Uwaga

    Jeśli przekażesz zakres parametrów do trenowania modelu, zostanie użyta tylko wartość domyślna na liście pojedynczych parametrów.

    Jeśli przekażesz pojedynczy zestaw wartości parametrów do składnika hiperparametrów modelu dostrajania , gdy oczekuje ona zakresu ustawień dla każdego parametru, zignoruje wartości i używa wartości domyślnych dla ucznia.

    Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, określona pojedyncza wartość jest używana w trakcie zamiatania, nawet jeśli inne parametry zmienią się w zakresie wartości.

  10. Prześlij potok.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.