Udostępnij za pośrednictwem


Regresja lasu decyzyjnego

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Tworzy model regresji przy użyciu algorytmu lasu decyzyjnego

Kategoria: Inicjowanie modelu — regresja

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Decision Forest Regression (Regresja lasu decyzyjnego) w programie Machine Learning Studio (wersja klasyczna) w celu utworzenia modelu regresji na podstawie grupy drzew decyzyjnych.

Po skonfigurowaniu modelu należy go wytszkolić przy użyciu zestawu danych z etykietami i modułu Train Model (Trenowanie modelu). Wytrenowany model może być następnie używany do przewidywania. Alternatywnie nieprzeszkolony model może zostać przekazany do modelu krzyżowego w celu krzyżowego sprawdzania poprawności zestawu danych z etykietami.

Jak działają lasy decyzyjne w zadaniach regresji

Drzewa decyzyjne są modelami nieparametrycznymi, które wykonują sekwencję prostych testów dla każdego wystąpienia, przechodzenie przez strukturę danych drzewa binarnego do momentu, gdy zostanie osiągnięty węzeł liścia (decyzja).

Drzewa decyzyjne mają następujące zalety:

  • Są one wydajne zarówno w obliczeniach, jak i w użyciu pamięci podczas trenowania i przewidywania.

  • Mogą reprezentować nieliniowe granice decyzyjne.

  • Wykonują one zintegrowane operacje wyboru i klasyfikacji funkcji oraz są odporne w obecności hałaśliwych funkcji.

Ten model regresji składa się z grupy drzew decyzyjnych. Każde drzewo w lesie decyzyjnym regresji wyprowadza rozkład gaussański jako przewidywanie. Agregacja jest wykonywana na zespole drzew w celu znalezienia rozkładu Gaussa znajdującego się najbliżej połączonego rozkładu wszystkich drzew w modelu.

Aby uzyskać więcej informacji na temat teoretycznej struktury dla tego algorytmu i jego implementacji, zobacz ten artykuł: Decision Forests: A Unified Framework for Classification, Regression, Density Estimation, Manifold Edukacja and Semi-Supervised Edukacja

Jak skonfigurować model regresji lasu decyzyjnego

  1. Dodaj moduł Decision Forest Regression (Regresja lasu decyzyjnego ) do eksperymentu. Moduł można znaleźć w programie Studio (wersja klasyczna) w obszarze Machine Learning, Initialize Model i Regression (Regresja).

  2. Otwórz właściwości modułu i dla metody Resampling wybierz metodę używaną do tworzenia poszczególnych drzew. Możesz wybrać opcję Bagging (Bagging) lub Replicate (Replikuj).

  3. Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb szkoleniowy .

    • Pojedynczy parametr

      Jeśli wiesz, jak chcesz skonfigurować model, możesz podać określony zestaw wartości jako argumenty. Być może wiesz już o tych wartościach, eksperymentując lub korzystając ze wskazówek.

    • Zakres parametrów

      Jeśli nie masz pewności co do najlepszych parametrów, możesz znaleźć optymalne parametry, określając wiele wartości i używając funkcji czyszczenie parametrów w celu znalezienia optymalnej konfiguracji.

      Dostrajanie hiperparametrów modelu będzie iterować po wszystkich możliwych kombinacjach podanych ustawień i określić kombinację ustawień, które zapewniają optymalne wyniki.

  4. W przypadku wartości Liczba drzew decyzyjnych wskaż łączną liczbę drzew decyzyjnych do utworzenia w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepsze pokrycie, ale czas trenowania się zwiększy.

    Porada

    Ta wartość kontroluje również liczbę drzew wyświetlanych podczas wizualizowania wytrenowany model. Jeśli chcesz wyświetlić lub wydrukować pojedyncze drzewo, możesz ustawić wartość na 1; Oznacza to jednak, że zostanie wykonane tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie będą wykonywane żadne dalsze iteracje.

  5. W celu ograniczenia maksymalnej głębokości drzew decyzyjnych wpisz liczbę, aby ograniczyć maksymalną głębokość każdego drzewa decyzyjnego. Zwiększenie głębokości drzewa może zwiększyć precyzję, co może okazać się ryzyko wystąpienia pewnego przesłonienia i zwiększonego czasu trenowania.

  6. W przypadku liczby losowych podziałów na węzeł wpisz liczbę podziałów do użycia podczas tworzenia poszczególnych węzłów drzewa. Podział oznacza , że cechy na każdym poziomie drzewa (węzła) są losowo dzielone.

  7. W przypadku minimalnej liczby próbek na węzeł liścia wskaż minimalną liczbę przypadków, które są wymagane do utworzenia dowolnego węzła terminalu (liścia) w drzewie.

    Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład jeśli wartość domyślna to 1, nawet pojedynczy przypadek może spowodować, że zostanie utworzona nowa reguła. W przypadku zwiększenia wartości do 5 dane szkoleniowe muszą zawierać co najmniej 5 przypadków, które spełniają te same warunki.

  8. Wybierz opcję Zezwalaj na nieznane wartości dla funkcji kategorii, aby utworzyć grupę dla nieznanych wartości w zestawach trenowania lub walidacji.

    Jeśli ją odznaczysz, model może akceptować tylko wartości zawarte w danych szkoleniowych. W pierwszym przypadku model może być mniej dokładny dla znanych wartości, ale może zapewnić lepsze przewidywania dla nowych (nieznanych) wartości.

  9. Połączenie zestawu danych z etykietą wybierz kolumnę z jedną etykietą zawierającą nie więcej niż dwa wyniki, a następnie połącz hiperparametry Train Model (Trenowanie modelu) lub Tune Model Hyperparameters (Dostrajanie modelu).

    • Jeśli ustawisz opcję Utwórz tryb instruktora na wartość Pojedynczy parametr, wytrenuj model przy użyciu modułu Train Model (Trenowanie modelu).

    • Jeśli ustawisz opcję Utwórz tryb instruktora na wartość Zakres parametrów, wytrenuj model przy użyciu hiperparametrów dostrajania modelu.

  10. Uruchom eksperyment.

Wyniki

Po zakończeniu szkolenia:

  • Aby wyświetlić drzewo, które zostało utworzone w każdej iteracji, kliknij prawym przyciskiem myszy dane wyjściowe modułu szkoleniowego, a następnie wybierz pozycję Visualize (Wizualizacja).

  • Aby wyświetlić reguły dla każdego węzła, kliknij każde drzewo i przejdź do szczegółów podziałów.

  • Aby zapisać migawkę wytrenowany model, kliknij prawym przyciskiem myszy dane wyjściowe modułu szkoleniowego, a następnie wybierz pozycję Zapisz jako wytrenowany model. Ta kopia modelu nie jest aktualizowana w kolejnych przebiegach eksperymentu.

Przykłady

Przykłady modeli regresji można znaleźć w tych przykładowych eksperymentach w Cortana Intelligence Gallery:

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

  • Jeśli przekażemy zakres parametrów do funkcji Train Model(Trenowanie modelu), będzie ona używać tylko pierwszej wartości na liście zakresów parametrów.

  • Jeśli przekażemy pojedynczy zestaw wartości parametrów do modułu Hiperparametry modelu dostrajania, jeśli oczekuje on zakresu ustawień dla każdego parametru, zignoruje on wartości i będzie używać wartości domyślnych dla uczących się.

  • W przypadku wybrania opcji Zakres parametrów i wprowadzenia pojedynczej wartości dla dowolnego parametru określona pojedyncza wartość będzie używana podczas czyszczenie, nawet jeśli inne parametry zmienią się w zakresie wartości.

Porady dotyczące użycia

Jeśli masz ograniczone dane lub chcesz zminimalizować czas trenowania modelu, wypróbuj następujące ustawienia:

Ograniczony zestaw treningowy. Jeśli zestaw szkoleniowy zawiera ograniczoną liczbę wystąpień:

  • Utwórz las decyzyjny przy użyciu dużej liczby drzew decyzyjnych (na przykład ponad 20)

  • Używanie opcji Bagging do ponownego próbkowania

  • Określ dużą liczbę losowych podziałów na węzeł (na przykład ponad 1000)

Ograniczony czas trenowania. Jeśli zestaw szkoleniowy zawiera dużą liczbę wystąpień, a czas trenowania jest ograniczony:

  • Tworzenie lasu decyzyjnego przy użyciu mniejszej liczby drzew decyzyjnych (na przykład 5–10)

  • Użyj opcji Replikuj do ponownego próbkowania

  • Określ niewielką liczbę losowych podziałów na węzeł (na przykład mniej niż 100)

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Metoda ponownego próbkowania dowolny ResamplingMethod Pakowania Wybieranie metody ponownego próbkowania
Liczba drzew decyzyjnych >= 1 Liczba całkowita 8 Określanie liczby drzew decyzyjnych do utworzenia w zespole
Maksymalna głębokość drzew decyzyjnych >= 1 Liczba całkowita 32 Określ maksymalną głębokość dowolnego drzewa decyzyjnego, które można utworzyć w zespole
Liczba losowych podziałów na węzeł >= 1 Liczba całkowita 128 Określ liczbę wygenerowanych podziałów na węzeł, z których wybrano optymalny podział
Minimalna liczba próbek na węzeł liścia >= 1 Liczba całkowita 1 Określ minimalną liczbę przykładów szkoleniowych wymaganych do wygenerowania węzła liścia
Zezwalaj na nieznane wartości dla cech kategorii dowolny Wartość logiczna true Wskazanie, czy nieznane wartości istniejących cech kategorii mogą być mapowane na nową, dodatkową funkcję

Dane wyjściowe

Nazwa Typ Opis
Nie wytrenowany model ILearner, interfejs Nieprzeszkolony model regresji

Zobacz też

Regresja

Lista modułów A–Z