Analys av huvudkomponent
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Beräknar en uppsättning funktioner med minskad dimensionalitet för mer effektiv inlärning
Kategori: Datatransformering/exempel och delning
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.
Modulöversikt
Den här artikeln beskriver hur du använder modulen Principal Component Analysis i Machine Learning Studio (klassisk) för att minska dimensionaliteten för dina träningsdata. Modulen analyserar dina data och skapar en minskad funktionsuppsättning som samlar in all information i datauppsättningen, men i ett mindre antal funktioner.
Modulen skapar också en transformering som du kan använda för nya data för att uppnå en liknande minskning av dimensionalitet och komprimering av funktioner, utan att kräva ytterligare träning.
Mer om analys av huvudkomponent
Principal Component Analysis (PCA) är en populär teknik inom maskininlärning. Den förlitar sig på det faktum att många typer av vektorutrymmesdata är komprimerbara och att komprimering bäst kan uppnås med sampling.
Ytterligare fördelar med PCA är förbättrad datavisualisering och optimering av resursanvändningen av inlärningsalgoritmen.
Modulen För huvudkomponentanalys i Machine Learning Studio (klassisk) tar en uppsättning egenskapskolumner i den angivna datamängden och skapar en projektion av funktionsutrymmet med lägre dimensionalitet. Algoritmen använder slumpmässighetstekniker för att identifiera ett funktionsunderområde som samlar in merparten av informationen i hela funktionsmatrisen. De transformerade datamatriserna fångar därför upp variansen i ursprungliga data samtidigt som effekten av brus minskar och risken för överanpassande minimeras.
Allmän information om huvudkomponentanalys (PCA) finns i den här Wikipedia-artikeln. Information om PCA-metoder som används i den här modulen finns i följande artiklar:
Hitta struktur med slumpmässighet: Probabilistiska algoritmer för att konstruera ungefärliga matrisdepositioner. Halko, Martinsson och Tropp, 2010.
Kombinera strukturerad och ostrukturerad slumpmässighet i storskalig PCA Kombinera strukturerad och ostrukturerad slumpmässighet i storskalig PCA. Mpatziakis och Mineiro, 2013.
Så här konfigurerar du huvudkomponentanalys
Lägg till modulen För huvudkomponentanalys i experimentet. Du hittar den under Datatransformering i kategorin Skala och Minska .
Anslut den datamängd som du vill transformera och välj de funktionskolumner som ska analyseras.
Om det inte redan är klart vilka kolumner som är funktioner och vilka som är etiketter rekommenderar vi att du använder modulen Redigera metadata för att markera kolumnerna i förväg.
Antal dimensioner att minska till: Ange önskat antal kolumner i de slutliga utdata. Varje kolumn representerar en dimension som samlar in en del av informationen i indatakolumnerna.
Om källdatauppsättningen till exempel har
3
åtta kolumner och du skriver returneras tre nya kolumner som samlar in information om de åtta valda kolumnerna. Kolumnerna heterCol1
,Col2
ochCol3
. Dessa kolumner mappar inte direkt till källkolumnerna. I stället innehåller kolumnerna en uppskattning av funktionsutrymmet som beskrivs i de ursprungliga kolumnerna 1–8.Tips
Algoritmen fungerar optimalt när antalet minskade dimensioner är mycket mindre än de ursprungliga dimensionerna.
Normalisera kompakt datauppsättning till noll medelvärde: Välj det här alternativet om datauppsättningen är kompakt, vilket innebär att den innehåller få saknade värden. Om du väljer det här alternativet normaliserar modulen värdena i kolumnerna till ett medelvärde på noll före annan bearbetning.
Det här alternativet bör inte väljas för glesa datamängder. Om en gles datauppsättning identifieras åsidosätts parametern.
Kör experimentet.
Resultat
Modulen matar ut en minskad uppsättning kolumner som du kan använda när du skapar en modell. Du kan spara utdata som en ny datauppsättning eller använda dem i experimentet.
Du kan också spara analysprocessen som en sparad transformering för att tillämpa på en annan datauppsättning med hjälp av Tillämpa transformering.
Den datamängd som du tillämpar transformeringen på måste ha samma schema som den ursprungliga datauppsättningen.
Exempel
Exempel på hur huvudkomponentanalys används i maskininlärning finns i Azure AI Gallery:
Klustring: Hitta liknande företag: Använder huvudkomponentanalys för att minska antalet värden från textutvinning till ett hanterbart antal funktioner.
Även om PCA används med ett anpassat R-skript i det här exemplet illustrerar det hur PCA vanligtvis används.
Teknisk information
Det finns två faser för beräkning av de lägre dimensionella komponenterna.
- Det första är att skapa ett lågdimensionellt underområde som avbildar matrisens åtgärd.
- Det andra är att begränsa matrisen till underområdet och sedan beräkna en standardfaktorisering av den reducerade matrisen.
Förväntade indata
Namn | Typ | Description |
---|---|---|
Datamängd | Datatabell | Datauppsättning vars dimensioner ska minskas |
Modulparametrar
Namn | Typ | Intervall | Valfritt | Description | Standardvärde |
---|---|---|---|---|---|
Valda kolumner | ColumnSelection | Obligatorisk | Valda kolumner som PCA ska tillämpas på | ||
Antal dimensioner att minska till | Integer | >= 1 | Obligatorisk | Antalet önskade dimensioner i den minskade datamängden | |
Normalisera kompakt datauppsättning till noll medelvärde | Boolesk | Obligatorisk | true | Ange om indatakolumnerna ska vara medel normaliserade för kompakta datauppsättningar (för gles dataparameter ignoreras) |
Utdata
Namn | Typ | Description |
---|---|---|
Resultatdatauppsättning | Datatabell | Datauppsättning med minskade dimensioner |
PCA-transformering | ITransform-gränssnitt | Transformering som när den tillämpas på datauppsättningen ger ny datauppsättning med minskade dimensioner |
Undantag
Undantag | Description |
---|---|
Fel 0001 | Undantag inträffar om det inte gick att hitta en eller flera angivna kolumner i datauppsättningen. |
Fel 0003 | Undantag inträffar om en eller flera indata är null eller tomma. |
Fel 0004 | Undantag inträffar om parametern är mindre än eller lika med ett visst värde. |
En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.
En lista över API-undantag finns i Machine Learning REST API felkoder.