Dela via


Moduler för funktionsval

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

I den här artikeln beskrivs de moduler Machine Learning Studio (klassisk) som du kan använda för att välja funktioner.

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Val av funktioner är ett viktigt verktyg inom maskininlärning. Machine Learning Studio (klassisk) innehåller flera metoder för att utföra funktionsval. Välj en funktionsmetod baserat på vilken typ av data du har och kraven för den statistiska teknik som används.

I den här artikeln beskrivs:

Varje modul för funktionsval i Machine Learning Studio (klassisk) använder en datauppsättning som indata. Sedan tillämpar modulen välkända statistiska metoder på de datakolumner som tillhandahålls som indata. Utdata är en uppsättning mått som kan hjälpa dig att identifiera de kolumner som har det bästa informationsvärdet.

Om funktionsval

När det gäller maskininlärning och statistik är funktionsval en process där du väljer en delmängd av relevanta, användbara funktioner som du kan använda när du skapar en analytisk modell. Funktionsval hjälper dig att begränsa datafältet till de mest värdefulla indata. Genom att begränsa datafältet kan du minska bruset och förbättra träningsprestandan.

Ofta skapas funktioner från rådata genom en funktionsteknikprocess. Till exempel kanske en tidsstämpel i sig inte är användbar för modellering förrän informationen omvandlas till enheter för dagar, månader eller kategorier som är relevanta för problemet, till exempel helger och arbetsdagar.

Nya användare av maskininlärning kan vara lockande att ta med alla tillgängliga data. De kan förvänta sig att algoritmen hittar något intressant genom att använda mer data. Funktionsval kan dock vanligtvis förbättra din modell och förhindra vanliga problem:

  • Data innehåller redundanta eller irrelevanta funktioner som inte ger mer information än de funktioner som är markerade.
  • Data innehåller irrelevanta funktioner som inte ger någon användbar information i någon kontext. Att inkludera irrelevanta fält ökar inte bara den tid som krävs för att träna data, utan kan också leda till dåliga resultat.
  • Med vissa algoritmer kan du ha duplicerad information i träningsdata leda till ett fenomen som kallas multikollinearitet. I multikollinearitet kan förekomsten av två starkt korrelerade variabler göra att beräkningarna för andra variabler blir mycket mindre exakta.

Tips

Vissa maskininlärningsalgoritmer i Machine Learning Studio (klassisk) använder även funktionsval eller minskning av antalet dimensioner som en del av träningsprocessen. När du använder dessa elever kan du hoppa över funktionens urvalsprocess och låta algoritmen bestämma de bästa indata.

Använda funktionsval i ett experiment

Funktionsval utförs vanligtvis när du utforskar data och utvecklar en ny modell. Tänk på följande tips när du använder funktionsval:

  • När du testar lägger du till funktionsval i experimentet för att generera poäng som informerar dig om vilka kolumner som ska användas.
  • Ta bort funktionsval från experimentet när du operationaliserar en modell.
  • Kör funktionsval regelbundet för att säkerställa att data och de bästa funktionerna inte har ändrats.

Funktionsval skiljer sig från funktionstekniker, som fokuserar på att skapa nya funktioner utifrån befintliga data.

Resurser

Funktionvalsmetoder i Machine Learning Studio (klassisk)

Följande moduler för funktionsval finns i Machine Learning Studio (klassisk).

Filterbaserat funktionsval

När du använder modulen Filterbaserat funktionsval kan du välja bland välkända metoder för funktionsval. Modulen matar ut både statistik över funktionsval och den filtrerade datamängden.

Ditt val av filtervalsmetod beror delvis på vilken typ av indata du har.

Metod Indata för funktioner som stöds Etiketter som stöds
Pearsons korrelation Endast numeriska och logiska kolumner En enskild numerisk eller logisk kolumn
Ömsesidig informationspoäng Alla datatyper En enda kolumn av valfri datatyp
Kendalls korrelationskoefficient Endast numeriska och logiska kolumner En enskild numerisk eller logisk kolumn

Kolumner ska ha värden som kan rangordnas
Spearman-korrelationskoefficienten Endast numeriska och logiska kolumner En enskild numerisk eller logisk kolumn
Chi2-statistik Alla datatyper En enda kolumn av valfri datatyp
Fisher-poäng Endast numeriska och logiska kolumner En enskild numerisk eller logisk kolumn

Strängkolumner tilldelas en poäng på 0
Antal baserade funktionsval Alla datatyper En etikettkolumn krävs inte

Fisher Linear Discriminant Analysis

Linjär diskriminant analys är en övervakad inlärningsteknik som du kan använda för att klassificera numeriska variabler tillsammans med ett enda kategoriskt mål. Metoden är användbar för funktionsval eftersom den identifierar den kombination av funktioner eller parametrar som bäst avgränsar grupperna.

Du kan använda modulen För linjär analys av Fisher för att generera en uppsättning poäng för granskning, eller så kan du använda ersättningsdatamängden som genereras av modulen för träning.

Permutationfunktionsprioritet

Använd modulen Permutation Feature Importance (Funktions prioritet för permutation ) för att simulera effekten av en uppsättning funktioner på datauppsättningen. Modulen beräknar prestandapoäng för en modell baserat på slumpmässig blandning av funktionsvärden.

Poängen som modulen returnerar representerar den potentiella ändringen i noggrannheten för en tränad modell om värdena ändras. Du kan använda poängen för att fastställa effekten av enskilda variabler på modellen.

Maskininlärningsalgoritmer som införlivar funktionsval

Vissa maskininlärningsalgoritmer i Machine Learning Studio (klassisk) optimerar funktionsval under träningen. De kan också tillhandahålla parametrar som hjälper till med funktionsval. Om du använder en metod som har sin egen heuristik för att välja funktioner är det ofta bättre att förlita sig på den heuristiken i stället för att välja förvalda funktioner.

Dessa algoritmer och metoder för funktionsval används internt:

  • Förstärkta beslutsträdsmodeller för klassificering och regression

    I de här modulerna skapas en funktionssammanfattning internt. Funktioner som har en vikt på 0 används inte av några trädsplitter. När du visualiserar den bäst tränade modellen kan du titta på vart och ett av träden. Om en funktion aldrig används i något träd är funktionen förmodligen en kandidat för borttagning. För att optimera markeringen är det också en bra idé att använda parametersökning.

  • Logistiska regressionsmodeller och linjära modeller

    Modulerna för multiklass- och binär logistisk regression stöder L1- och L2-regularisering. Regularisering är ett sätt att lägga till begränsningar under träningen för att manuellt ange en aspekt av den inlärda modellen. Regularisering används vanligtvis för att undvika överanpassning. Machine Learning Studio (klassisk) stöder regularisering för viktvektoriseringens L1- eller L2-normer i linjära klassificeringsalgoritmer:

    • L1-regularisering är användbart om målet är att ha en modell som är så gles som möjligt.
    • L2-regularisering förhindrar att enskilda koordinater i viktvektorn växer för mycket. Det är användbart om målet är att ha en modell med små övergripande vikter.
    • L1-regulariserad logistisk regression är mer aggressiv när det gäller att tilldela en vikt på 0 till funktioner. Det är användbart för att identifiera funktioner som kan tas bort.

Teknisk information

Alla funktionsvalsmoduler och analysmetoder som stöder numeriska och logiska kolumner stöder även kolumner för datum/tid och tidsspann. Dessa kolumner behandlas som enkla numeriska kolumner där varje värde är lika med antalet tick.

Följande moduler finns inte i kategorin Funktionsval , men du kan använda dem för relaterade uppgifter. Modulerna kan hjälpa dig att minska dimensionaliteten för dina data eller hitta korrelationer:

Om du har en datauppsättning som har många kolumner använder du modulen Principal Component Analysis (Huvudkomponentanalys) för att identifiera de kolumner som innehåller mest information om ursprungliga data.

Den här modulen finns i kategorin Datatransformering under Skala och minska.

Antalsbaserad featurisering är en ny teknik som du kan använda för att fastställa användbara funktioner med hjälp av stora datamängder. Använd de här modulerna för att analysera datauppsättningar för att hitta de bästa funktionerna, spara en uppsättning funktioner som ska användas med nya data eller uppdatera en befintlig funktionsuppsättning.

Använd den här modulen för att beräkna en uppsättning Pearson-korrelationskoefficienter för varje möjligt par variabler i indatauppsättningen. Pearson-korrelationskoefficienten, som även kallas Pearsons R-test, är ett statistiskt värde som mäter den linjära relationen mellan två variabler.

Den här modulen är i kategorin Statistiska funktioner.

Lista över moduler

Kategorin Funktionsval innehåller följande moduler:

Se även