Regression för beslutsskog
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Skapar en regressionsmodell med beslutsskogsalgoritmen
Kategori: Initiera modell – Regression
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.
Modulöversikt
I den här artikeln beskrivs hur du använder modulen Decision Forest Regression i Machine Learning Studio (klassisk) för att skapa en regressionsmodell baserad på en ensemble med beslutsträd.
När du har konfigurerat modellen måste du träna modellen med hjälp av en etiketterad datauppsättning och modulen Träna modell. Den tränade modellen kan sedan användas för att göra förutsägelser. Alternativt kan den tränade modellen skickas till korsvalideringsmodellen för korsvalidering mot en etiketterad datauppsättning.
Så här fungerar beslutsskogar i regressionsuppgifter
Beslutsträd är icke-parametrisbaserade modeller som utför en sekvens med enkla tester för varje instans och bläddrar i en binär träddatastruktur tills en lövnod (beslut) uppnås.
Beslutsträd har följande fördelar:
De är effektiva både när det gäller beräkning och minnesanvändning under träning och förutsägelse.
De kan representera icke-linjära beslutsgränser.
De utför val och klassificering av integrerade funktioner och är motståndskraftiga när det förekommer brusfunktioner.
Den här regressionsmodellen består av en ensemble med beslutsträd. Varje träd i en regressionsbeslutsskog matar ut en gaussisk fördelning som en förutsägelse. En aggregering utförs över ensemblen med träd för att hitta en gaussisk distribution som är närmast den kombinerade fördelningen för alla träd i modellen.
Mer information om det teoretiska ramverket för den här algoritmen och dess implementering finns i den här artikeln: Decision Forests: A Unified Framework for Classification, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning
Så här konfigurerar du regressionsmodellen för beslutsskog
Lägg till modulen Decision Forest Regression (Regression för beslutsskog) i experimentet. Du hittar modulen i Studio (klassisk) under Machine Learning, Initiera modell och Regression.
Öppna modulegenskaperna och välj den metod som används för att skapa enskilda träd för omsamplingsmetoden. Du kan välja mellan Bagging (Bagging ) eller Replicate (Replikera).
Bagging: Bagging kallas även bootstrap-aggregering. Varje träd i en regressionsbeslutsskog matar ut en gaussisk fördelning via förutsägelse. Aggregeringen är att hitta en Gaussian vars första två ögonblick matchar den tid då blandning av Gaussianer ges genom att kombinera alla gaussianer som returneras av enskilda träd.
Mer information finns i Wikipedia-posten för Bootstrap-aggregering.
Replikera: Vid replikering tränas varje träd på exakt samma indata. Bestämningen av vilket delat predikat som används för varje trädnod förblir slumpmässig och trädträden kommer att vara olika.
Mer information om träningsprocessen med alternativet Replikera finns iBeslutsskogar för Visuellt innehåll och medicinsk bildanalys. Criminisi och J. Shotton. Springer 2013..
Ange hur du vill att modellen ska tränas genom att ange alternativet Skapa utbildarläge .
Enkel parameter
Om du vet hur du vill konfigurera modellen kan du ange en specifik uppsättning värden som argument. Du kanske har lärt dig dessa värden genom experimentering eller fått dem som vägledning.
Parameterintervall
Om du inte är säker på de bästa parametrarna kan du hitta de optimala parametrarna genom att ange flera värden och använda en parametersökning för att hitta den optimala konfigurationen.
Hyperparametrar för finjusteringsmodeller itererar över alla möjliga kombinationer av de inställningar som du har angett och bestämmer vilken kombination av inställningar som ger optimala resultat.
För Antal beslutsträd anger du det totala antalet beslutsträd som ska skapas i ensemblen. Genom att skapa fler beslutsträd kan du eventuellt få bättre täckning, men träningstiden ökar.
Tips
Det här värdet styr även antalet träd som visas när den tränade modellen visualiseras. Om du vill se eller skriva ut ett enskilt träd kan du ange värdet till 1. Det innebär dock att endast ett träd skapas (trädet med den inledande uppsättningen parametrar) och inga ytterligare iterationer utförs.
För Maximalt djup för beslutsträden anger du ett tal för att begränsa det maximala djupet för ett beslutsträd. Att öka djupet i trädet kan öka precisionen, med risk för viss överanpassad och ökad träningstid.
I Antal slumpmässiga delningar per nod anger du antalet delningar som ska användas när du skapar varje nod i trädet. En delning innebär att funktioner i varje nivå i trädet (noden) delas slumpmässigt.
För Minsta antal exempel per lövnod anger du det minsta antal ärenden som krävs för att skapa en terminalnod (lövnod) i ett träd.
Genom att öka det här värdet ökar du tröskelvärdet för att skapa nya regler. Med standardvärdet 1 kan till exempel även ett enskilt fall göra att en ny regel skapas. Om du ökar värdet till 5 måste träningsdata innehålla minst 5 fall som uppfyller samma villkor.
Välj alternativet Tillåt okända värden för kategoriska funktioner för att skapa en grupp för okända värden i tränings- eller valideringsuppsättningarna.
Om du avmarkerar den kan modellen bara acceptera de värden som finns i träningsdata. I det första fallet kan modellen vara mindre exakt för kända värden, men den kan ge bättre förutsägelser för nya (okända) värden.
Anslut en etiketterad datamängd väljer du en kolumn med en etikett som inte innehåller fler än två resultat och ansluter antingen Träna modell eller Finjustera hyperparametrar för modell.
Om du ställer in alternativet Skapa utbildarlägepå Enkel parameter tränar du modellen med hjälp av modulen Träna modell.
Om du ställer in alternativet Skapa utbildarlägepå Parameterintervall tränar du modellen med hjälp av Hyperparametrar för finjusteringsmodell.
Kör experimentet.
Resultat
När träningen är klar:
Om du vill se trädet som skapades på varje iteration högerklickar du på utdata för träningsmodulen och väljer Visualisera.
Om du vill se reglerna för varje nod klickar du på varje träd och går nedåt i delningar.
Om du vill spara en ögonblicksbild av den tränade modellen högerklickar du på träningsmodulens utdata och väljer Spara som tränad modell. Den här kopian av modellen uppdateras inte på efterföljande körningar av experimentet.
Exempel
Exempel på regressionsmodeller finns i dessa exempelexperiment i Cortana Intelligence Gallery:
Jämför regressionsmodeller: Kontrasterar flera olika typer av regressionsmodeller.
Exempel på attitydanalys: Använder flera olika regressionsmodeller för att generera förutsagda omdömen.
Teknisk information
Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.
Om du skickar ett parameterintervall till Train Model (Träna modell) används bara det första värdet i listan över parameterintervall.
Om du skickar en enda uppsättning parametervärden till modulen Hyperparameters för tune model ignoreras värdena och standardvärdena för learner ignoreras när ett antal inställningar för varje parameter förväntas.
Om du väljer alternativet Parameterintervall och anger ett enda värde för en parameter kommer det enskilda värde som du har angett att användas under hela omfånget, även om andra parametrar ändras över ett värdeintervall.
Användningstips
Om du har begränsade data eller vill minimera den tid som läggs på att träna modellen kan du prova följande inställningar:
Begränsad träningsuppsättning. Om träningsuppsättningen innehåller ett begränsat antal instanser:
Skapa beslutsskogen med ett stort antal beslutsträd (till exempel fler än 20)
Använd bagging-alternativet för omsampling
Ange ett stort antal slumpmässiga delningar per nod (till exempel fler än 1 000)
Begränsad träningstid. Om träningsuppsättningen innehåller ett stort antal instanser och träningstiden är begränsad:
Skapa beslutsskogen med färre beslutsträd (till exempel 5–10)
Använd alternativet Replikera för omsampling
Ange ett litet antal slumpmässiga delningar per nod (till exempel mindre än 100)
Modulparametrar
Name | Intervall | Typ | Standardvärde | Description |
---|---|---|---|---|
Omsamplingsmetod | valfri | OmsamplingMethod | Uppsamlare | Välj en omsamplingsmetod |
Antal beslutsträd | >= 1 | Integer | 8 | Ange antalet beslutsträd som ska skapas i ensemblen |
Maximalt djup för beslutsträden | >= 1 | Integer | 32 | Ange det maximala djupet för ett beslutsträd som kan skapas i ensemblen |
Antal slumpmässiga delningar per nod | >= 1 | Integer | 128 | Ange antalet delningar som genereras per nod, där den optimala delningen väljs |
Minsta antal exempel per lövnod | >= 1 | Integer | 1 | Ange det minsta antalet träningsexempel som krävs för att generera en lövnod |
Tillåt okända värden för kategoriska funktioner | valfri | Boolesk | true | Ange om okända värden för befintliga kategoriska funktioner kan mappas till en ny, ytterligare funktion |
Utdata
Namn | Typ | Description |
---|---|---|
Ej tränad modell | ILearner-gränssnitt | En tränad regressionsmodell |