Beslutsskog med två klasser

Artikel
05/06/2019

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Skapar en klassificeringsmodell med två klasser med beslutsskogsalgoritmen

Kategori: Machine Learning/initiera modell/klassificering

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Beslutsskog med två klasser i Machine Learning Studio (klassisk) för att skapa en maskininlärningsmodell som baseras på beslutsskogsalgoritmen.

Beslutsskogar är snabba, övervakade ensemblemodeller. Den här modulen är ett bra val om du vill förutsäga ett mål med högst två resultat. Om du inte är säker på hur du konfigurerar en beslutsträdsmodell för bästa resultat rekommenderar vi att du använder modulen Finjustera modellens hyperparametrar för att träna och testa flera modeller. Justering itererar över flera möjligheter och hittar den optimala lösningen åt dig.

Förstå beslutsskogar

Den här beslutsskogsalgoritmen är en ensembleinlärningsmetod som är avsedd för klassificeringsuppgifter. Ensemblemetoder baseras på den allmänna principen att du i stället för att förlita dig på en enda modell kan få bättre resultat och en mer generaliserad modell genom att skapa flera relaterade modeller och kombinera dem på något sätt. I allmänhet ger ensemblemodeller bättre täckning och noggrannhet än enskilda beslutsträd.

Det finns många sätt att skapa enskilda modeller och kombinera dem i en ensemble. Den här specifika implementeringen av en beslutsskog fungerar genom att skapa flera beslutsträd och sedan rösta på den populäraste utdataklassen. Röstning är en av de mer kända metoderna för att generera resultat i en ensemblemodell.

Många enskilda klassificeringsträd skapas med hjälp av hela datauppsättningen, men olika (vanligtvis slumpmässiga) startpunkter. Detta skiljer sig från metoden med slumpmässig skog, där de enskilda beslutsträden kanske bara använder en slumpmässig del av data eller funktioner.
Varje träd i beslutsskogsträdet matar ut ett icke-normaliserat frekvensens histogram med etiketter.
Sammansättningsprocessen summerar dessa histogram och normaliserar resultatet för att få "sannolikheterna" för varje etikett.
De träd som har hög förutsägelseförtroende kommer att ha en större vikt i det slutliga beslutet i ensemblen.

Beslutsträd har i allmänhet många fördelar för klassificeringsuppgifter:

De kan fånga icke-linjära beslutsgränser.
Du kan träna och förutsäga stora mängder data, eftersom de är effektiva när det gäller beräkning och minnesanvändning.
Funktionsval är integrerat i processerna för träning och klassificering.
Träd kan hantera data med brus och många funktioner.
De är icke-parametrisbaserade modeller, vilket innebär att de kan hantera data med olika fördelningar.

Enkla beslutsträd kan dock överanpassa data och är mindre generaliserbara än trädens ensembleer.

Mer information finns i Beslutsskogar eller andra artiklar som anges i avsnittet Tekniska anteckningar.

Så här konfigurerar Two-Class beslutsskog

Lägg till modulen Beslutsskog med två klasser i experimentet i Machine Learning Studio (klassisk) och öppna fönstret Egenskaper i modulen.

Du hittar modulen under Machine Learning. Expandera Initiera och sedan Klassificering.
För Omsamplingsmetod väljer du den metod som används för att skapa enskilda träd. Du kan välja mellan Bagging (Bagging ) eller Replicate (Replikera).
- Bagging: Bagging kallas även bootstrap-aggregering. I den här metoden växer varje träd i ett nytt urval, som skapas genom slumpmässig sampling av den ursprungliga datauppsättningen med ersättning tills du har en datauppsättning som är lika stor som originalet.
  
  Modellernas utdata kombineras genom röstning, vilket är en form av aggregering. Varje träd i en skog för klassificeringsbeslut matar ut ett histogram med etiketter som inte normaliserats. Aggregeringen är att summera histogrammen och normalisera för att få "sannolikheterna" för varje etikett. På så sätt får de träd som har hög prediktionsförtroende en större vikt i det slutliga beslutet i ensemblen.
  
  Mer information finns i Wikipedia-posten för Bootstrap-aggregering.
- Replikera: Vid replikering tränas varje träd på exakt samma indata. Bestämningen av vilket delat predikat som används för varje trädnod förblir slumpmässig och trädträden kommer att vara olika.
  
  Mer information om träningsprocessen med alternativet Replikera finns i dokumenten i avsnittet Tekniska anteckningar.
Ange hur du vill att modellen ska tränas genom att ange alternativet Skapa utbildarläge .
- Enskild parameter: Om du vet hur du vill konfigurera modellen kan du ange en specifik uppsättning värden som argument.
- Parameterintervall: Om du inte är säker på de bästa parametrarna kan du hitta de optimala parametrarna genom att ange flera värden och använda modulen Finjustera hyperparametrar för modell för att hitta den optimala konfigurationen. Utbildaren itererar över flera kombinationer av de inställningar som du har angett och avgör kombinationen av värden som ger den bästa modellen.
För Antal beslutsträd anger du det maximala antalet beslutsträd som kan skapas i ensemblen. Genom att skapa fler beslutsträd kan du eventuellt få bättre täckning, men träningstiden ökar.

Anteckning

Det här värdet styr även antalet träd som visas när den tränade modellen visualiseras. Om du vill se eller skriva ut ett enskilt träd kan du ange värdet till 1. Endast ett träd kan dock skapas (trädet med den inledande uppsättningen parametrar) och inga ytterligare iterationer utförs.
För Maximalt djup för beslutsträden anger du ett tal för att begränsa det maximala djupet för ett beslutsträd. Att öka djupet i trädet kan öka precisionen, med risk för viss överanpassad och ökad träningstid.
I Antal slumpmässiga delningar per nod anger du antalet delningar som ska användas när du skapar varje nod i trädet. En delning innebär att funktioner i varje nivå i trädet (noden) delas slumpmässigt.
För Minsta antal exempel per lövnod anger du det minsta antal ärenden som krävs för att skapa en terminalnod (lövnod) i ett träd.

Genom att öka det här värdet ökar du tröskelvärdet för att skapa nya regler. Med standardvärdet 1 kan till exempel även ett enskilt fall göra att en ny regel skapas. Om du ökar värdet till 5 måste träningsdata innehålla minst 5 fall som uppfyller samma villkor.
Välj alternativet Tillåt okända värden för kategoriska funktioner för att skapa en grupp för okända värden i tränings- eller valideringsuppsättningarna. Modellen kan vara mindre exakt för kända värden, men den kan ge bättre förutsägelser för nya (okända) värden.

Om du avmarkerar det här alternativet kan modellen bara acceptera de värden som finns i träningsdata.
Bifoga en etiketterad datamängd och en av träningsmodulerna:
- Om du ställer in läget Skapa utbildarepå Enkel parameter använder du modulen Träna modell.
- Om du ställer in Läget Skapa utbildarepå Parameterintervall använder du Hyperparametrar för justera modell.
Anteckning

Om du skickar ett parameterintervall till Train Model (Träna modell) används bara det första värdet i listan över parameterintervall.

Om du skickar en enda uppsättning parametervärden till modulen Hyperparameters för tune model ignoreras värdena när en uppsättning inställningar för varje parameter förväntas, och standardvärdena används för eleven.

Om du väljer alternativet Parameterintervall och anger ett enda värde för en parameter används det enskilda värdet under hela omfånget, även om andra parametrar ändras över ett värdeintervall.

Resultat

När träningen är klar:

Om du vill se trädet som skapades för varje iteration högerklickar du på Modulen Träna modell och väljer Tränad modell att visualisera. Om du använder Hyperparametrar för justera modell högerklickar du på modulen och väljer Tränad bästa modell för att visualisera den bästa modellen.

Klicka på varje träd för att öka detaljgranskningen i delningar och se reglerna för varje nod.
Om du vill spara en ögonblicksbild av modellen högerklickar du på utdata för Tränad modell och väljer Spara modell. Den sparade modellen uppdateras inte på efterföljande körningar av experimentet.
Om du vill använda modellen för bedömning lägger du till modulen Poängmodell i ett experiment.

Exempel

Exempel på hur beslutsskogar används i maskininlärning finns i exempelexperimenten i Azure AI Gallery:

Nyhetskategorisering: Jämför en klassificerare med flera klasser med en modell som skapats med algoritmen för beslutsskog med två klasser med En-mot-alla – multiklass.
Förebyggande underhåll: En utökad genomgång som använder algoritmen för beslutsskog med två klasser för att förutsäga om en tillgång kommer att misslyckas inom en viss tidsram.

Teknisk information

Det här avsnittet innehåller ytterligare implementeringsinformation, forskning och vanliga frågor och svar.

Användningstips

Om du har begränsade data, eller om du vill minimera den tid som läggs på att träna modellen, kan du prova följande inställningar:

Begränsad träningsuppsättning

Om träningsuppsättningen innehåller ett begränsat antal instanser:

Skapa beslutsskogen med ett stort antal beslutsträd (till exempel fler än 20).
Använd alternativet Bagging (Bagging ) för omsampling.
Ange ett stort antal slumpmässiga delningar per nod (till exempel fler än 1 000).

Begränsad träningstid

Om träningsuppsättningen innehåller ett stort antal instanser och träningstiden är begränsad:

Skapa beslutsskogen med färre beslutsträd (till exempel 5–10).
Använd alternativet Replikera för omsampling.
Ange ett mindre antal slumpmässiga delningar per nod (till exempel färre än 100).

Implementeringsdetaljer

Den här artikeln av Microsoft Research innehåller användbar information om ensemblemetoder som använder beslutsträd. Från Stors till Träd till Skogar.

Mer information om träningsprocessen med alternativet Replikera finns iBeslutsskogar för Visuellt innehåll och medicinsk bildanalys. Criminisi och J. Shotton. Springer 2013.

Modulparametrar

Name	Intervall	Typ	Standardvärde	Description
Omsamplingsmetod	Valfri	OmsamplingMethod	Uppsamlare	Välj en omsamplingsmetod
Antal beslutsträd	>=1	Integer	8	Ange antalet beslutsträd som ska skapas i ensemblen
Högsta djup för beslutsträden	>=1	Integer	32	Ange det maximala djupet för ett beslutsträd som kan skapas
Antal slumpmässiga delningar per nod	>=1	Integer	128	Ange antalet delningar som genereras per nod, där den optimala uppdelningen väljs
Minsta antal exempel per lövnod	>=1	Integer	1	Ange det minsta antalet träningsexempel som krävs för att skapa en lövnod
Tillåt okända värden för kategoriska funktioner	Valfri	Boolesk	Sant	Ange om okända värden för befintliga kategoriska funktioner kan mappas till en ny, ytterligare funktion

Utdata

Namn	Typ	Description
Ej tränad modell	ILearner-gränssnitt	En omtränad binär klassificeringsmodell

Se även

Klassificering
Regression för beslutsskog
Beslutsskog med två klasser
A-Z-modullista

Dela via