Beslutsskog med två klasser
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Skapar en klassificeringsmodell med flera klasser med beslutsskogsalgoritmen
Kategori: Machine Learning/initiera modell/klassificering
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.
Modulöversikt
I den här artikeln beskrivs hur du använder modulen Beslutsskog med flera klasser i Machine Learning Studio (klassisk) för att skapa en maskininlärningsmodell som baseras på beslutsskogens algoritm. En beslutsskog är en ensemblemodell som mycket snabbt skapar en serie beslutsträd, samtidigt som den lär sig från taggade data.
Mer om beslutsskogar
Beslutsskogsalgoritmen är en ensembleinlärningsmetod för klassificering. Algoritmen fungerar genom att skapa flera beslutsträd och sedan rösta på den mest populära utdataklassen. Röstning är en form av aggregering där varje träd i en klassificeringsbeslutsskog matar ut ett icke-normaliserat frekvens histogram med etiketter. Sammansättningsprocessen summerar dessa histogram och normaliserar resultatet för att få "sannolikheterna" för varje etikett. De träd som har hög förutsägelseförtroende har en större vikt i det slutliga beslutet i ensemblen.
Beslutsträd är i allmänhet icke-parametrisbaserade modeller, vilket innebär att de stöder data med olika fördelningar. I varje träd körs en sekvens med enkla tester för varje klass, vilket ökar nivåerna i en trädstruktur tills en lövnod (beslut) uppnås.
Beslutsträd har många fördelar:
- De kan representera icke-linjära beslutsgränser.
- De är effektiva i beräkning och minnesanvändning under träning och förutsägelse.
- De utför val och klassificering av integrerade funktioner.
- De är motståndskraftiga i närvaro av brusfunktioner.
Beslutsskogens klassificerare i Machine Learning Studio (klassisk) består av en ensemble med beslutsträd. I allmänhet ger ensemblemodeller bättre täckning och noggrannhet än enskilda beslutsträd. Mer information finns i Beslutsträd.
Så här konfigurerar du beslutsskog med flera klasser
Tips
Om du inte är säker på de bästa parametrarna rekommenderar vi att du använder modulen Hyperparametrar för finjusteringsmodell för att träna och testa flera modeller och hitta de optimala parametrarna.
Lägg till modulen Beslutsskog med flera klasser i experimentet i Studio (klassisk). Du hittar den här modulen under Machine Learning, Initiera modell och Klassificering.
Dubbelklicka på modulen för att öppna fönstret Egenskaper.
För Omsamplingsmetod väljer du den metod som används för att skapa enskilda träd. Du kan välja mellan att felsöka eller använda replikering.
Bagging: Bagging kallas även bootstrap-aggregering. I den här metoden växer varje träd i ett nytt urval, som skapas genom slumpmässig sampling av den ursprungliga datauppsättningen med ersättning tills du har en datauppsättning som är lika stor som originalet. Modellernas utdata kombineras genom röstning, vilket är en form av aggregering. Mer information finns i Wikipedia-posten för Bootstrap-aggregering.
Replikera: Vid replikering tränas varje träd på exakt samma indata. Bestämningen av vilket delat predikat som används för varje trädnod förblir slumpmässig, vilket skapar olika träd.
Se avsnittet How to Configure a Multiclass Decision Forest Model (Så här konfigurerar du en beslutsskogsmodell med flera klasser) för vägledning.
Ange hur du vill att modellen ska tränas genom att ange alternativet Skapa utbildarläge .
Enskild parameter: Välj det här alternativet om du vet hur du vill konfigurera modellen och ange en uppsättning värden som argument.
Parameterintervall: Använd det här alternativet om du inte är säker på de bästa parametrarna och vill använda en parametersökning.
Antal beslutsträd: Ange det maximala antalet beslutsträd som kan skapas i ensemblen. Genom att skapa fler beslutsträd kan du eventuellt få bättre täckning, men träningstiden kan öka.
Det här värdet styr även antalet träd som visas i resultatet när den tränade modellen visualiseras. Om du vill visa eller skriva ut ett enskilt träd kan du ange värdet till 1. Det innebär dock att endast ett träd kan skapas (trädet med den inledande uppsättningen parametrar) och inga ytterligare iterationer utförs.
Maximalt djup för beslutsträden: Ange ett tal för att begränsa det maximala djupet för beslutsträd. Att öka djupet i trädet kan öka precisionen, med risk för viss överanpassad och ökad träningstid.
Antal slumpmässiga delningar per nod: Ange antalet delningar som ska användas när du skapar varje nod i trädet. En delning innebär att funktioner i varje nivå i trädet (noden) delas slumpmässigt.
Minsta antal exempel per lövnod: Ange det minsta antal ärenden som krävs för att skapa en terminalnod (lövnod) i ett träd. Genom att öka det här värdet ökar du tröskelvärdet för att skapa nya regler.
Med standardvärdet 1 kan till exempel även ett enskilt fall göra att en ny regel skapas. Om du ökar värdet till 5 måste träningsdata innehålla minst 5 fall som uppfyller samma villkor.
Tillåt okända värden för kategoriska funktioner: Välj det här alternativet om du vill skapa en grupp för okända värden i tränings- eller valideringsuppsättningarna. Modellen kan vara mindre exakt för kända värden, men den kan ge bättre förutsägelser för nya (okända) värden.
Om du avmarkerar det här alternativet kan modellen bara acceptera de värden som finns i träningsdata.
Anslut en märkt datset och en av utbildningsmodulerna:
Om du ställer in läget Skapa utbildarepå Enkel parameter använder du modulen Träna modell.
Om du ställer in alternativet Skapa utbildarlägepå Parameterintervall använder du modulen Finjustera modellens hyperparametrar . Med det här alternativet kan utbildaren iterera över flera kombinationer av inställningarna och fastställa de parametervärden som producerar den bästa modellen.
Anteckning
Om du skickar ett parameterintervall till Train Model (Träna modell) används bara det första värdet i listan med parameterintervall.
Om du skickar en enda uppsättning parametervärden till modulen Hyperparameters för tune model ignoreras värdena och standardvärdena för learner används när ett antal inställningar för varje parameter förväntas.
Om du väljer alternativet Parameterintervall och anger ett enda värde för en parameter används det enskilda värde som du angav under hela omfånget, även om andra parametrar ändras över ett värdeintervall.
Kör experimentet.
Resultat
När träningen är klar:
- Om du vill se trädet som skapades för varje iteration högerklickar du på Modulen Träna modell och väljer Tränad modell att visualisera. Om du använder Hyperparametrar för justera modell högerklickar du på modulen och väljer Tränad bästa modell för att visualisera den bästa modellen. Om du vill se reglerna för varje nod klickar du på varje träd för att öka detaljgranskningen i delningar.
Exempel
Exempel på hur beslutsskogar används i maskininlärning finns i Azure AI Gallery:
- Jämför exempel på klassificerare med flera klasser: Använder flera algoritmer och diskuterar deras för- och nackdelar.
Teknisk information
Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.
Implementeringsdetaljer
Varje träd i en skog för klassificeringsbeslut matar ut ett histogram med etiketter som inte är normaliserade. Aggregeringen är att summera dessa histogram och normalisera för att få "sannolikheter" för varje etikett. På så sätt har de träd som har hög prediktionsförtroende större vikt i det slutliga beslutet i ensemblen.
Relaterad forskning
Mer information om träningsprocessen med alternativet Replikera finns i:
- Beslutsskogar för analys av datorseende och medicinska bilder. Criminisi och Shotton. Springer 2013.
Konfigurera en beslutsskogsmodell med flera klasser
Du kan ändra hur modulen är konfigurerad för att hantera scenarier som för lite data eller begränsad tid för träning.
Begränsad träningstid
Om träningsuppsättningen innehåller ett stort antal instanser, men den tid du har tillgänglig för träning av modellen är begränsad, kan du prova med följande alternativ:
- Skapa en beslutsskog som använder ett mindre antal beslutsträd (till exempel 5–10).
- Använd alternativet Replikera för omsampling.
- Ange ett mindre antal slumpmässiga delningar per nod (till exempel mindre än 100).
Begränsad träningsuppsättning
Om träningsuppsättningen innehåller ett begränsat antal instanser kan du prova att använda följande alternativ:
- Skapa en beslutsskog som använder ett stort antal beslutsträd (till exempel fler än 20).
- Använd alternativet Bagging (Bagging ) för omsampling.
- Ange ett stort antal slumpmässiga delningar per nod (till exempel fler än 1 000).
Modulparametrar
Name | Intervall | Typ | Standardvärde | Description |
---|---|---|---|---|
Omsamplingsmetod | Valfri | OmsamplingMethod | Uppsamlare | Välj en omsamplingsmetod: Bagging (Bagging ) eller Replicate (Replikera) |
Antal beslutsträd | >= 1 | Integer | 8 | Ange antalet beslutsträd som ska skapas i ensemblen |
Maximalt djup för beslutsträden | >= 1 | Integer | 32 | Ange det maximala djupet för ett beslutsträd som kan skapas |
Antal slumpmässiga delningar per nod | >= 1 | Integer | 128 | Ange antalet delningar som genereras per nod, där den optimala delningen väljs |
Minsta antal exempel per lövnod | >= 1 | Integer | 1 | Ange det minsta antalet träningsexempel som krävs för att generera en lövnod |
Tillåt okända värden för kategoriska funktioner | Valfri | Boolesk | Sant | Ange om okända värden för befintliga kategoriska funktioner kan mappas till en ny, ytterligare funktion |
Utdata
Namn | Typ | Description |
---|---|---|
Ej tränad modell | ILearner-gränssnitt | En otränad klassificeringsmodell med flera klasser |
Se även
Klassificering
Beslutsskog med två klasser
Regression för beslutsskog
A-Z-modullista