Beslutsskogsregressionskomponent

Artikel
09/01/2024

I den här artikeln beskrivs en komponent i Azure Machine Learning-designern.

Använd den här komponenten för att skapa en regressionsmodell baserat på en ensemble av beslutsträd.

När du har konfigurerat modellen måste du träna modellen med hjälp av en märkt datauppsättning och komponenten Träna modell . Den tränade modellen kan sedan användas för att göra förutsägelser.

Hur det fungerar

Beslutsträd är icke-parametriska modeller som utför en sekvens med enkla tester för varje instans och passerar en binär träddatastruktur tills en lövnod (beslut) har nåtts.

Beslutsträd har följande fördelar:

De är effektiva i både beräkning och minnesanvändning under träning och förutsägelse.
De kan representera icke-linjära beslutsgränser.
De utför integrerat funktionsval och klassificering och är motståndskraftiga i närvaro av bullriga funktioner.

Den här regressionsmodellen består av en ensemble av beslutsträd. Varje träd i en beslutsskog för regression matar ut en gaussisk fördelning som en förutsägelse. En aggregering utförs över trädensemblen för att hitta en gaussisk fördelning närmast den kombinerade fördelningen för alla träd i modellen.

Mer information om det teoretiska ramverket för den här algoritmen och dess implementering finns i den här artikeln: Decision Forests: A Unified Framework for Classification, Regression, Density Estimation, Manifold Learning och Semi-Supervised Learning

Så här konfigurerar du Regressionsmodell för beslutsskog

Lägg till komponenten Decision Forest Regression i pipelinen. Du hittar komponenten i designern under Machine Learning, Initialize Model och Regression.
Öppna komponentegenskaperna och för Metoden Omsampling väljer du den metod som används för att skapa enskilda träd. Du kan välja mellan att packa eller replikera.
- Påse: Påse kallas även bootstrap-aggregering. Varje träd i en beslutsskog för regression matar ut en gaussisk fördelning som förutsägelse. Aggregeringen är att hitta en gaussisk vars första två ögonblick matchar ögonblicken i blandningen av gaussiska fördelningar som ges genom att kombinera alla fördelningar som returneras av enskilda träd.
  
  Mer information finns i Wikipedia-posten för Bootstrap-aggregering.
- Replikera: Vid replikering tränas varje träd på exakt samma indata. Bestämningen av vilken delad predikat som används för varje trädnod förblir slumpmässig och träden kommer att vara olika.
  
  Mer information om träningsprocessen med alternativet Replikera finns i Decision Forests for Visuellt innehåll and Medical Image Analysis (Beslutsskogar för Visuellt innehåll och medicinsk bildanalys). Criminisi och J. Shotton. Springer 2013..
Ange hur du vill att modellen ska tränas genom att ange alternativet Skapa träningsläge .
- Enskild parameter
  
  Om du vet hur du vill konfigurera modellen kan du ange en specifik uppsättning värden som argument. Du kanske har lärt dig dessa värden genom experimentering eller tagit emot dem som vägledning.
- Parameterintervall: Välj det här alternativet om du inte är säker på de bästa parametrarna och vill köra en parametersvepning. Välj ett intervall med värden att iterera över, och Tune Model Hyperparameters itererar över alla möjliga kombinationer av de inställningar som du angav för att fastställa de hyperparametrar som ger optimala resultat.
För Antal beslutsträd anger du det totala antalet beslutsträd som ska skapas i ensemblen. Genom att skapa fler beslutsträd kan du eventuellt få bättre täckning, men träningstiden ökar.

Dricks

Om du anger värdet till 1; Det innebär dock att endast ett träd skapas (trädet med den första uppsättningen parametrar) och inga ytterligare iterationer utförs.
För Maximalt djup för beslutsträden skriver du ett tal för att begränsa det maximala djupet för beslutsträd. Att öka trädets djup kan öka precisionen, med risk för viss överanpassning och ökad träningstid.
För Antal slumpmässiga delningar per nod anger du antalet delningar som ska användas när du skapar varje nod i trädet. En delning innebär att funktioner i varje nivå i trädet (noden) delas slumpmässigt.
För Minsta antal exempel per lövnod anger du det minsta antal fall som krävs för att skapa en terminalnod (löv) i ett träd.

Genom att öka det här värdet ökar du tröskelvärdet för att skapa nya regler. Med standardvärdet 1 kan till exempel även ett enskilt fall leda till att en ny regel skapas. Om du ökar värdet till 5 måste träningsdata innehålla minst fem fall som uppfyller samma villkor.
Träna modellen:
- Om du ställer in Läget Skapa tränare på Enskild parameter ansluter du en taggad datauppsättning och komponenten Träna modell .
- Om du anger Skapa träningsläge till Parameterintervall ansluter du en taggad datauppsättning och tränar modellen med hjälp av Tune Model Hyperparameters.
Kommentar

Om du skickar ett parameterintervall till Train Model används endast standardvärdet i listan med enskilda parametrar.

Om du skickar en enskild uppsättning parametervärden till komponenten Tune Model Hyperparameters ignoreras värdena när det förväntar sig ett intervall med inställningar för varje parameter och använder standardvärdena för eleven.

Om du väljer alternativet Parameterintervall och anger ett enda värde för valfri parameter används det enskilda värdet som du angav under hela svepet, även om andra parametrar ändras över ett värdeintervall.
Skicka pipelinen.

Resultat

När träningen är klar:

Om du vill spara en ögonblicksbild av den tränade modellen väljer du träningskomponenten och växlar sedan till fliken Utdata i den högra panelen. Klicka på ikonen Registrera modell. Du hittar den sparade modellen som en komponent i komponentträdet.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.

Dela via

Beslutsskogsregressionskomponent

Hur det fungerar

Så här konfigurerar du Regressionsmodell för beslutsskog

Resultat

Nästa steg

Feedback

Ytterligare resurser