Analys av huvudkomponent

Artikel
05/06/2019

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Beräknar en uppsättning funktioner med minskad dimensionalitet för mer effektiv inlärning

Kategori: Datatransformering/exempel och delning

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Principal Component Analysis i Machine Learning Studio (klassisk) för att minska dimensionaliteten för dina träningsdata. Modulen analyserar dina data och skapar en minskad funktionsuppsättning som samlar in all information i datauppsättningen, men i ett mindre antal funktioner.

Modulen skapar också en transformering som du kan använda för nya data för att uppnå en liknande minskning av dimensionalitet och komprimering av funktioner, utan att kräva ytterligare träning.

Mer om analys av huvudkomponent

Principal Component Analysis (PCA) är en populär teknik inom maskininlärning. Den förlitar sig på det faktum att många typer av vektorutrymmesdata är komprimerbara och att komprimering bäst kan uppnås med sampling.

Ytterligare fördelar med PCA är förbättrad datavisualisering och optimering av resursanvändningen av inlärningsalgoritmen.

Modulen För huvudkomponentanalys i Machine Learning Studio (klassisk) tar en uppsättning egenskapskolumner i den angivna datamängden och skapar en projektion av funktionsutrymmet med lägre dimensionalitet. Algoritmen använder slumpmässighetstekniker för att identifiera ett funktionsunderområde som samlar in merparten av informationen i hela funktionsmatrisen. De transformerade datamatriserna fångar därför upp variansen i ursprungliga data samtidigt som effekten av brus minskar och risken för överanpassande minimeras.

Allmän information om huvudkomponentanalys (PCA) finns i den här Wikipedia-artikeln. Information om PCA-metoder som används i den här modulen finns i följande artiklar:

Hitta struktur med slumpmässighet: Probabilistiska algoritmer för att konstruera ungefärliga matrisdepositioner. Halko, Martinsson och Tropp, 2010.
Kombinera strukturerad och ostrukturerad slumpmässighet i storskalig PCA Kombinera strukturerad och ostrukturerad slumpmässighet i storskalig PCA. Mpatziakis och Mineiro, 2013.

Så här konfigurerar du huvudkomponentanalys

Lägg till modulen För huvudkomponentanalys i experimentet. Du hittar den under Datatransformering i kategorin Skala och Minska .
Anslut den datamängd som du vill transformera och välj de funktionskolumner som ska analyseras.

Om det inte redan är klart vilka kolumner som är funktioner och vilka som är etiketter rekommenderar vi att du använder modulen Redigera metadata för att markera kolumnerna i förväg.
Antal dimensioner att minska till: Ange önskat antal kolumner i de slutliga utdata. Varje kolumn representerar en dimension som samlar in en del av informationen i indatakolumnerna.

Om källdatauppsättningen till exempel har 3åtta kolumner och du skriver returneras tre nya kolumner som samlar in information om de åtta valda kolumnerna. Kolumnerna heter Col1, Col2och Col3. Dessa kolumner mappar inte direkt till källkolumnerna. I stället innehåller kolumnerna en uppskattning av funktionsutrymmet som beskrivs i de ursprungliga kolumnerna 1–8.

Tips

Algoritmen fungerar optimalt när antalet minskade dimensioner är mycket mindre än de ursprungliga dimensionerna.
Normalisera kompakt datauppsättning till noll medelvärde: Välj det här alternativet om datauppsättningen är kompakt, vilket innebär att den innehåller få saknade värden. Om du väljer det här alternativet normaliserar modulen värdena i kolumnerna till ett medelvärde på noll före annan bearbetning.

Det här alternativet bör inte väljas för glesa datamängder. Om en gles datauppsättning identifieras åsidosätts parametern.
Kör experimentet.

Resultat

Modulen matar ut en minskad uppsättning kolumner som du kan använda när du skapar en modell. Du kan spara utdata som en ny datauppsättning eller använda dem i experimentet.

Du kan också spara analysprocessen som en sparad transformering för att tillämpa på en annan datauppsättning med hjälp av Tillämpa transformering.

Den datamängd som du tillämpar transformeringen på måste ha samma schema som den ursprungliga datauppsättningen.

Exempel

Exempel på hur huvudkomponentanalys används i maskininlärning finns i Azure AI Gallery:

Klustring: Hitta liknande företag: Använder huvudkomponentanalys för att minska antalet värden från textutvinning till ett hanterbart antal funktioner.

Även om PCA används med ett anpassat R-skript i det här exemplet illustrerar det hur PCA vanligtvis används.

Teknisk information

Det finns två faser för beräkning av de lägre dimensionella komponenterna.

Det första är att skapa ett lågdimensionellt underområde som avbildar matrisens åtgärd.
Det andra är att begränsa matrisen till underområdet och sedan beräkna en standardfaktorisering av den reducerade matrisen.

Förväntade indata

Namn	Typ	Description
Datamängd	Datatabell	Datauppsättning vars dimensioner ska minskas

Modulparametrar

Namn	Typ	Intervall	Valfritt	Description	Standardvärde
Valda kolumner	ColumnSelection		Obligatorisk		Valda kolumner som PCA ska tillämpas på
Antal dimensioner att minska till	Integer	>= 1	Obligatorisk		Antalet önskade dimensioner i den minskade datamängden
Normalisera kompakt datauppsättning till noll medelvärde	Boolesk		Obligatorisk	true	Ange om indatakolumnerna ska vara medel normaliserade för kompakta datauppsättningar (för gles dataparameter ignoreras)

Utdata

Namn	Typ	Description
Resultatdatauppsättning	Datatabell	Datauppsättning med minskade dimensioner
PCA-transformering	ITransform-gränssnitt	Transformering som när den tillämpas på datauppsättningen ger ny datauppsättning med minskade dimensioner

Undantag

Undantag	Description
Fel 0001	Undantag inträffar om det inte gick att hitta en eller flera angivna kolumner i datauppsättningen.
Fel 0003	Undantag inträffar om en eller flera indata är null eller tomma.
Fel 0004	Undantag inträffar om parametern är mindre än eller lika med ett visst värde.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Exempel och delning
Val av funktion

Dela via