Analisi in componenti principali
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Calcola un set di funzioni con dimensionalità ridotta per l'apprendimento più efficiente
Categoria: Trasformazione dati/Campione e Suddivisione
Nota
Si applica a: Machine Learning Studio (versione classica)
Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.
Panoramica del modulo
Questo articolo descrive come usare il modulo Principal Component Analysis in Machine Learning Studio (versione classica) per ridurre la dimensionalità dei dati di training. Il modulo analizza i dati e crea un set di funzionalità ridotto che acquisisce tutte le informazioni contenute nel set di dati, ma in un numero minore di funzionalità.
Il modulo crea inoltre una trasformazione che è possibile applicare ai nuovi dati, per ottenere una simile riduzione della dimensionalità e una compressione delle funzioni analoga, senza richiedere ulteriore training.
Ulteriori informazioni su PCA
Principal Component Analysis (PCA) è una tecnica diffusa nell'apprendimento automatico. Si basa sul fatto che molti tipi di dati dello spazio vettoriale sono comprimibili e che la compressione può essere ottenuta in modo più efficiente tramite campionamento.
I vantaggi dell'analisi pcA sono la visualizzazione dei dati migliorata e l'ottimizzazione dell'uso delle risorse da parte dell'algoritmo di apprendimento.
Il modulo Principal Component Analysis in Machine Learning Studio (versione classica) accetta un set di colonne di caratteristiche nel set di dati specificato e crea una proiezione dello spazio delle funzionalità con dimensionalità inferiore. L'algoritmo usa tecniche di randomizzazione per identificare un sottospazio di funzionalità che acquisisce la maggior parte delle informazioni nella matrice completa delle caratteristiche. Di conseguenza, le matrici di dati trasformate acquisiscono la varianza nei dati originali riducendo al tempo stesso l'effetto del rumore e riducendo al minimo il rischio di overfitting.
Per informazioni generali sull'analisi dei componenti principali, vedere questo articolo di Wikipedia. Per informazioni sugli approcci PCA usati in questo modulo, vedere gli articoli seguenti:
Ricerca della struttura con casualità: algoritmi probabilistici per la costruzione di scomposizione di matrici approssimative. Halko, Martinsson e Tropp, 2010.
Combinazione della casualità strutturata e non strutturata nell'A PCA su larga scala Combinazione di casualità strutturata e non strutturata in PCA su larga scala. Kpimpatziakis e Mineiro, 2013.
Come configurare l'analisi dei componenti principali
Aggiungere il modulo Principal Component Analysis all'esperimento. È possibile trovarlo in Trasformazione dati nella categoria Scala e riduzione.
Connessione set di dati da trasformare e scegliere le colonne delle caratteristiche da analizzare.
Se non è già chiaro quali colonne sono caratteristiche e quali etichette, è consigliabile usare il modulo Modifica metadati per contrassegnare le colonne in anticipo.
Numero di dimensioni a cui ridurre: digitare il numero desiderato di colonne nell'output finale. Ogni colonna rappresenta una dimensione che acquisisce una parte delle informazioni nelle colonne di input.
Ad esempio, se il set
3
di dati di origine contiene otto colonne e si digita , vengono restituite tre nuove colonne che acquisiscono le informazioni delle otto colonne selezionate. Le colonne sono denominateCol1
,Col2
eCol3
. Queste colonne non vengono mappate direttamente alle colonne di origine. al contrario, le colonne contengono un'approssimazione dello spazio delle caratteristiche descritto dalle colonne originali da 1 a 8.Suggerimento
L'algoritmo funziona in modo ottimale quando il numero di dimensioni ridotte è molto inferiore rispetto alle dimensioni originali.
Normalize dense dataset to zero mean (Normalizza set di dati denso a zero): selezionare questa opzione se il set di dati è denso, ovvero contiene pochi valori mancanti. Se selezionata, il modulo normalizza i valori nelle colonne con una media pari a zero prima di qualsiasi altra elaborazione.
Per i set di dati di tipo sparse, questa opzione non deve essere selezionata. Se viene rilevato un set di dati di tipo sparse, viene eseguito l'override del parametro .
Eseguire l'esperimento.
Risultati
Il modulo restituisce un set ridotto di colonne che è possibile usare nella creazione di un modello. È possibile salvare l'output come nuovo set di dati o usarlo nell'esperimento.
Facoltativamente, è possibile salvare il processo di analisi come trasformazione salvata da applicare a un altro set di dati usando Applica trasformazione.
Il set di dati a cui si applica la trasformazione deve avere lo stesso schema del set di dati originale.
Esempio
Per esempi di come viene usata l'analisi dei componenti principali in Machine Learning, vedere l'Azure AI Gallery:
Clustering: individuazione di aziende simili: usa l'analisi dei componenti principali per ridurre il numero di valori dal text mining a un numero gestibile di funzionalità.
Anche se in questo esempio pcA viene applicato usando uno script R personalizzato, viene illustrato come viene in genere usata l'A PCA.
Note tecniche
Il calcolo dei componenti di dimensioni inferiori è in due fasi.
- Il primo è costruire un sottospazio non dimensionale che acquisisce l'azione della matrice.
- Il secondo è limitare la matrice al sottospazio e quindi calcolare una fattorizzazione standard della matrice ridotta.
Input previsti
Nome | Tipo | Descrizione |
---|---|---|
Set di dati | Tabella dati | Set di dati di cui è necessario ridurre le dimensioni |
Parametri del modulo
Nome | Tipo | Intervallo | Facoltativo | Descrizione | Predefinito |
---|---|---|---|---|---|
Colonne selezionate | ColumnSelection | Necessario | Colonne selezionate a cui applicare PCA | ||
Number of dimensions to reduce to | Integer | >=1 | Necessario | Numero di dimensioni desiderate nel set di dati ridotto | |
Normalize dense dataset to zero mean | Boolean | Necessario | true | Indica se le colonne di input avranno la media normalizzata per set di dati di tipo dense (ignorato per il parametro relativo ai dati di tipo sparse) |
Output
Nome | Tipo | Descrizione |
---|---|---|
Set di dati di risultati | Tabella dati | Set di dati con dimensioni ridotte |
PCA Transformation | Interfaccia ITransform | Trasformazione che, quando applicata a un set di dati, fornirà un nuovo set di dati con dimensioni ridotte |
Eccezioni
Eccezione | Descrizione |
---|---|
Errore 0001 | L'eccezione si verifica se non è possibile trovare una o più colonne specificate del set di dati. |
Errore 0003 | L'eccezione si verifica se uno o più input sono null o vuoti. |
Errore 0004 | L'eccezione si verifica se un parametro è inferiore o uguale a un valore specifico. |
Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere l'Machine Learning codici di errore.
Per un elenco delle eccezioni API, vedere l'Machine Learning di errore dell'API REST.