Składnik regresji lasu decyzyjnego
W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.
Użyj tego składnika, aby utworzyć model regresji na podstawie zespołu drzew decyzyjnych.
Po skonfigurowaniu modelu należy wytrenować model przy użyciu oznaczonego zestawu danych i składnika Train Model . Następnie wytrenowany model może służyć do przewidywania.
Jak to działa
Drzewa decyzyjne to nieparametryczne modele, które wykonują sekwencję prostych testów dla każdego wystąpienia, przechodząc przez strukturę danych drzewa binarnego do momentu osiągnięcia węzła liścia (decyzji).
Drzewa decyzyjne mają następujące zalety:
Są one wydajne zarówno w obliczeniach, jak i w przypadku użycia pamięci podczas trenowania i przewidywania.
Mogą reprezentować nieliniowe granice decyzyjne.
Wykonują one zintegrowane wybieranie i klasyfikację funkcji i są odporne na występowanie hałaśliwych funkcji.
Ten model regresji składa się z zespołu drzew decyzyjnych. Każde drzewo w lesie decyzyjnym regresji generuje rozkład Gaussian jako przewidywanie. Agregacja jest wykonywana przez zespół drzew w celu znalezienia rozkładu gaussańskiego znajdującego się najbliżej połączonego rozkładu dla wszystkich drzew w modelu.
Aby uzyskać więcej informacji na temat teoretycznej struktury dla tego algorytmu i jego implementacji, zobacz ten artykuł: Lasy decyzyjne: Ujednolicona struktura klasyfikacji, regresja, szacowanie gęstości, uczenie manifold i uczenie częściowo nadzorowane
Jak skonfigurować model regresji lasu decyzyjnego
Dodaj składnik Decision Forest Regression (Regresja lasu decyzyjnego) do potoku. Składnik można znaleźć w projektancie w obszarze Uczenie maszynowe, Inicjowanie modelu i Regresja.
Otwórz właściwości składnika, a w polu Metoda ponownego próbkowania wybierz metodę użytą do utworzenia poszczególnych drzew. Możesz wybrać jedną z opcji Bagging lub Replikuj.
Bagging: Bagging jest również nazywany agregacji bootstrap. Każde drzewo w lesie decyzyjnym regresji generuje rozkład Gaussian na podstawie przewidywania. Agregacja polega na znalezieniu Gaussiana, którego pierwsze dwa momenty pasują do momentów mieszaniny rozkładów Gaussowskich podanych przez połączenie wszystkich rozkładów zwracanych przez poszczególne drzewa.
Aby uzyskać więcej informacji, zobacz wpis w Wikipedii dotyczący agregacji Bootstrap.
Replikowanie: w replikacji każde drzewo jest trenowane na dokładnie tych samych danych wejściowych. Określenie, które predykat podziału jest używane dla każdego węzła drzewa pozostaje losowe, a drzewa będą zróżnicowane.
Aby uzyskać więcej informacji na temat procesu trenowania z opcją Replikuj, zobacz Lasy decyzyjne dla przetwarzanie obrazów i Analizy obrazów medycznych. Criminisi i J. Shotton. Springer 2013..
Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .
Pojedynczy parametr
Jeśli wiesz, jak skonfigurować model, możesz podać określony zestaw wartości jako argumenty. Te wartości mogły zostać poznane przez eksperymentowanie lub odebrane jako wskazówki.
Zakres parametrów: wybierz tę opcję, jeśli nie masz pewności co do najlepszych parametrów i chcesz uruchomić zamiatanie parametrów. Wybierz zakres wartości do iterowania, a hiperparametry modelu dostrajania iterują we wszystkich możliwych kombinacjach podanych ustawień w celu określenia hiperparametrów, które generują optymalne wyniki.
W polu Liczba drzew decyzyjnych wskaż łączną liczbę drzew decyzyjnych do utworzenia w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepsze pokrycie, ale czas trenowania wzrośnie.
Napiwek
Jeśli ustawisz wartość na 1; oznacza to jednak, że zostanie wygenerowane tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie zostaną wykonane kolejne iteracji.
Aby uzyskać maksymalną głębokość drzew decyzyjnych, wpisz liczbę, aby ograniczyć maksymalną głębokość dowolnego drzewa decyzyjnego. Zwiększenie głębokości drzewa może zwiększyć precyzję, na ryzyko nadmiernego dopasowania i zwiększonego czasu trenowania.
W polu Liczba losowych podziałów na węzeł wpisz liczbę podziałów do użycia podczas kompilowania każdego węzła drzewa. Podział oznacza, że funkcje na każdym poziomie drzewa (węzła) są losowo podzielone.
W polu Minimalna liczba próbek na węzeł liścia wskaż minimalną liczbę przypadków, które są wymagane do utworzenia dowolnego węzła terminalu (liścia) w drzewie.
Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład z wartością domyślną 1, nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej pięć przypadków spełniających te same warunki.
Trenowanie modelu:
Jeśli ustawisz opcję Utwórz tryb trenera na Pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model (Trenowanie modelu).
Jeśli ustawisz opcję Utwórz tryb trenera na Wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów dostrajania modelu.
Uwaga
Jeśli przekażesz zakres parametrów do trenowania modelu, zostanie użyta tylko wartość domyślna na liście pojedynczych parametrów.
Jeśli przekażesz pojedynczy zestaw wartości parametrów do składnika hiperparametrów modelu dostrajania , gdy oczekuje ona zakresu ustawień dla każdego parametru, zignoruje wartości i używa wartości domyślnych dla ucznia.
Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, określona pojedyncza wartość jest używana w trakcie zamiatania, nawet jeśli inne parametry zmienią się w zakresie wartości.
Prześlij potok.
Wyniki
Po zakończeniu szkolenia:
- Aby zapisać migawkę wytrenowanego modelu, wybierz składnik trenowania, a następnie przejdź do karty Dane wyjściowe w prawym panelu. Kliknij ikonę Zarejestruj model. Zapisany model można znaleźć jako składnik w drzewie składników.
Następne kroki
Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.