Dela via


Komponent för tvåklasssförstärkning av beslutsträd

I den här artikeln beskrivs en komponent i Azure Machine Learning-designern.

Använd den här komponenten för att skapa en maskininlärningsmodell som baseras på algoritmen för förstärkta beslutsträd.

Ett förstärkt beslutsträd är en ensembleinlärningsmetod där det andra trädet korrigeras för felen i det första trädet, det tredje trädet korrigeras för felen i det första och andra träden och så vidare. Förutsägelser baseras på hela ensemblen av träd tillsammans som gör förutsägelsen.

I allmänhet är förstärkta beslutsträd de enklaste metoderna för att få bästa prestanda för en mängd olika maskininlärningsuppgifter när de är korrekt konfigurerade. Men de är också en av de mer minnesintensiva eleverna, och den aktuella implementeringen innehåller allt i minnet. Därför kanske en förstärkt beslutsträdsmodell inte kan bearbeta de stora datauppsättningar som vissa linjära elever kan hantera.

Den här komponenten baseras på LightGBM-algoritmen.

Konfigurera

Den här komponenten skapar en otränad klassificeringsmodell. Eftersom klassificering är en övervakad inlärningsmetod behöver du för att träna modellen en taggad datauppsättning som innehåller en etikettkolumn med ett värde för alla rader.

Du kan träna den här typen av modell med hjälp av Träningsmodell.

  1. Lägg till komponenten Boosted Decision Tree i din pipeline i Azure Machine Learning.

  2. Ange hur du vill att modellen ska tränas genom att ange alternativet Skapa träningsläge .

    • Enskild parameter: Om du vet hur du vill konfigurera modellen kan du ange en specifik uppsättning värden som argument.

    • Parameterintervall: Om du inte är säker på de bästa parametrarna kan du hitta de optimala parametrarna med hjälp av komponenten Tune Model Hyperparameters . Du anger ett visst värdeintervall och utbildaren itererar över flera kombinationer av inställningarna för att fastställa vilken kombination av värden som ger det bästa resultatet.

  3. För Maximalt antal löv per träd anger du det maximala antalet terminalnoder (löv) som kan skapas i valfritt träd.

    Genom att öka det här värdet kan du öka trädets storlek och få bättre precision, med risk för överanpassning och längre träningstid.

  4. För Minsta antal exempel per lövnod anger du det antal fall som krävs för att skapa en terminalnod (löv) i ett träd.

    Genom att öka det här värdet ökar du tröskelvärdet för att skapa nya regler. Med standardvärdet 1 kan till exempel även ett enskilt fall leda till att en ny regel skapas. Om du ökar värdet till 5 måste träningsdata innehålla minst fem fall som uppfyller samma villkor.

  5. För Inlärningsfrekvens skriver du ett tal mellan 0 och 1 som definierar stegstorleken under inlärningen.

    Inlärningsfrekvensen avgör hur snabbt eller långsamt eleven konvergerar på den optimala lösningen. Om stegstorleken är för stor kan du överskrida den optimala lösningen. Om stegstorleken är för liten tar det längre tid att träna för att konvergera på den bästa lösningen.

  6. För Antal byggda träd anger du det totala antalet beslutsträd som ska skapas i ensemblen. Genom att skapa fler beslutsträd kan du eventuellt få bättre täckning, men träningstiden ökar.

    Om du anger värdet till 1 skapas bara ett träd (trädet med den inledande uppsättningen parametrar) och inga ytterligare iterationer utförs.

  7. För Slumptalsutsäde kan du ange ett icke-negativt heltal som ska användas som slumpmässigt startvärde. Om du anger ett startvärde säkerställs reproducerbarheten mellan körningar som har samma data och parametrar.

    Det slumpmässiga fröet anges som standard till 0, vilket innebär att det första frövärdet erhålls från systemklockan. Efterföljande körningar med hjälp av ett slumpmässigt frö kan ha olika resultat.

  8. Träna modellen:

    • Om du ställer in Läget Skapa tränareEnskild parameter ansluter du en taggad datauppsättning och komponenten Träna modell .

    • Om du anger Skapa träningsläge till Parameterintervall ansluter du en taggad datauppsättning och tränar modellen med hjälp av Tune Model Hyperparameters.

    Kommentar

    Om du skickar ett parameterintervall till Train Model används endast standardvärdet i listan med enskilda parametrar.

    Om du skickar en enskild uppsättning parametervärden till komponenten Tune Model Hyperparameters ignoreras värdena när det förväntar sig ett intervall med inställningar för varje parameter och använder standardvärdena för eleven.

    Om du väljer alternativet Parameterintervall och anger ett enda värde för valfri parameter används det enskilda värdet som du angav under hela svepet, även om andra parametrar ändras över ett värdeintervall.

Resultat

När träningen är klar:

  • Om du vill spara en ögonblicksbild av den tränade modellen väljer du fliken Utdata i den högra panelen i komponenten Träna modell . Välj ikonen Registrera datauppsättning för att spara modellen som en återanvändbar komponent.

  • Om du vill använda modellen för bedömning lägger du till komponenten Poängsätta modell i en pipeline.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.