Condividi tramite


Correlazione lineare di calcolo

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Calcola la correlazione lineare tra i valori di colonna in un set di dati

Categoria: Funzioni statistiche

Nota

Si applica a: solo Machine Learning Studio (versione classica)

I moduli di trascinamento e rilascio simili sono disponibili in Azure Machine Learning finestra di progettazione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Di correlazione lineare di calcolo in Machine Learning Studio (versione classica), per calcolare un set di coefficienti di correlazione di Pearson per ogni possibile coppia di variabili nel set di dati di input.

Il coefficiente di correlazione Di Pearson, talvolta denominato test R di Pearson, è un valore statistico che misura la relazione lineare tra due variabili. Esaminando i valori del coefficiente, è possibile dedurre qualcosa sulla forza della relazione tra le due variabili e se sono correlate positivamente o negativamente correlate.

Come configurare la correlazione lineare

Prima di calcolare il coefficiente di correlazione, esistono alcuni prerequisiti, ad esempio la pulizia dei dati e la verifica che la relazione tra le variabili sia appropriata per questo modulo. È anche necessario rimuovere o imputare valori mancanti.

Le restrizioni seguenti si applicano quando si usa questo modulo:

  • Il modulo Di correlazione lineare di calcolo può elaborare solo valori numerici. Tutti gli altri tipi di valori, inclusi i valori mancanti, i valori non numerici e i valori categorici, verranno considerati come NaN.

  • La correlazione di Pearson viene calcolata per tutte le colonne numeriche nel set di dati passate come input. Assicurarsi di escludere le colonne appropriate per questa analisi.

  • Impossibile usare correlazione lineare di calcolo con i dati mancanti.

Passaggio 1: Determinare la linearità

Se le colonne di cui si sta eseguendo il test non devono avere una relazione lineare, non c'è alcun punto per generare questo coefficiente. È quindi consigliabile testare prima le colonne, per verificare se hanno il tipo di dati corretto e il tipo di distribuzione corretto in generale.

Esistono vari modi per determinare se la relazione tra le colonne è approssimativamente lineare:

  • Creare un grafico a dispersione delle variabili in Studio (versione classica), usando l'opzione Visualizza nel set di dati. Fare clic su una delle colonne delle variabili numeriche, espandere Visualizzazioni e fare clic su Confronta. Selezionare una variabile diversa e viene generato automaticamente un grafico a dispersione. Se viene generato un tipo diverso di tracciato, significa che almeno una colonna ha un tipo di dati diverso (non numerico).

  • Calcolare un'equazione di regressione per le due variabili. Esistono molti pacchetti R che supportano questa operazione, che è possibile caricare e usare nel modulo Esegui script R .

Passaggio 2: Pulire i dati

È necessario rimuovere o compilare valori mancanti, rimuovere o ritagliarli e assicurarsi che le colonne abbiano il tipo di dati appropriato.

Assicurarsi di verificare la presenza di segnaposto e sostituire tale valore con altri valori appropriati prima di usare questo modulo. Se naN è stato inserito per i valori mancanti quando il set di dati è stato caricato dall'origine, potrebbe causare un errore. I valori segnaposto, ad esempio 999 o -1 possono anche causare risultati non validi.

Per preparare i dati, è possibile usare questi moduli:

È possibile modificare il tipo di dati delle colonne usando Modifica metadati. Assicurarsi che le colonne da analizzare siano contrassegnate come colonne di funzionalità.

Passaggio 3: Generare il coefficiente

  1. Aggiungere il modulo Di correlazione lineare di calcolo all'esperimento. È possibile trovare questo modulo nella categoria Funzioni statistiche in Machine Learning Studio (versione classica).

  2. Aggiungere il set di dati da analizzare.

  3. È consigliabile aggiungere un modulo Select Columns in Dataset tra il set di dati e il modulo Compute Linear Correlation per rimuovere colonne non necessarie. Configurare il modulo Seleziona colonne nel set di dati per ottenere solo le due colonne numeriche per cui si desidera calcolare i coefficienti.

    In caso contrario, il modulo Di correlazione lineare di calcolo potrebbe generare molte colonne di NaN.

  4. Non sono disponibili parametri da impostare per questo modulo. Tuttavia, avrà esito negativo se le colonne passate come input non soddisfano i requisiti.

  5. Eseguire l'esperimento.

Risultati per due colonne

Dato due colonne di funzionalità, il modulo Di correlazione lineare di calcolo restituisce il coefficiente di correlazione del momento del prodotto Scalar Pearson (campione). Il coefficiente di correlazione Di Pearson (spesso denotato come r) varia in valore compreso tra +1 e -1.

  • +1 indica una relazione lineare positiva forte

  • -1 indica una correlazione lineare negativa forte

  • 0 indica nessuna relazione lineare tra le due variabili.

L'interpretazione dei coefficienti dipende molto dal problema che si sta modellando e dalle variabili che si stanno studiando. È quindi importante comprendere il contesto dei dati durante la creazione di report e l'interpretazione del coefficiente di correlazione di Pearson.

  • Se si è certi che le variabili non sono correlate e tuttavia il coefficiente di correlazione di Pearson è fortemente positivo (r > .5 o così via), è necessario esaminare ulteriormente.

  • Se si usa la correlazione lineare su due variabili che si sa essere perfettamente correlabili e i valori del coefficiente non sono quelli previsti, potrebbe indicare un problema nei dati.

Risultati per più di due colonne

Dato una matrice (ovvero più di due colonne di funzionalità), il modulo Di correlazione lineare compute restituisce un set di correlazioni dei momenti di prodotto Di Pearson tra ogni coppia di colonne di funzionalità.

Pertanto, il risultato è una tabella n x n contenente i coefficienti per ogni combinazione delle colonne n . Se le colonne non soddisfano i criteri, viene restituito un valore NaN ("non un numero").

Si supponga, ad esempio, di passare nelle due colonne wheel-base numeriche e curb-weight più una colonna categorica, make (dal set di dati prezzi automobile). Il risultato è una tabella 3x3 di coefficienti per tutte le possibili combinazioni delle colonne di input:

make wheel-base curb-weight
Nan Nan Nan
Nan 1 0.776386
Nan 0.776386 1

In questa tabella le righe sono comprese per rappresentare ognuna delle variabili,make , wheel-basee , curb-weightin tale ordine.

  • Il valore r per la correlazione di wheel-base a se stesso è 1.
  • Il valore r per la correlazione di wheel-base a curb-weight è 0,776386.
  • Tutte le correlazioni che coinvolgono il risultato della colonna make in NaN, inclusa la correlazione con se stessa, perché make è una funzionalità stringa.

È consigliabile rimuovere colonne non numeriche, per evitare tabelle complesse con molti valori senza significato.

Esempio

Per informazioni su come questo modulo viene usato negli esperimenti di Machine Learning, vedere La raccolta di intelligenza artificiale di Azure:

Note tecniche

Questa sezione contiene i dettagli, i suggerimenti e le risposte all'implementazione alle domande frequenti.

Dettagli dell'implementazione

Se la colonna passata come input contiene valori scalari, le matrici di input (x e y) vengono trattati come vettori e viene calcolata la correlazione del momento del prodotto di Pearson, come indicato di seguito:

linear correlation formula

In questa formula ogni matrice contiene n elementi e i mezzi dei campioni x e y sono rispettivamente μx e μy .

Per una matrice, una matrice di dati (X) è l'input, in cui ogni colonna rappresenta un vettore di valori. La matrice dei dati deve essere n-by-m. L'output sarà la matrice m-by-m, R definita da

formula for linear correlation

In questa formula μx rappresenta il valore medio della colonna xi. Gli elementi a I,j sono sempre uguali a 1, poiché rappresentano la correlazione di un vettore con se stesso.

Input previsti

Nome Tipo Descrizione
Set di dati Tabella dati Set di dati di input

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Matrice di correlazioni

Eccezioni

Eccezione Descrizione
Errore 0003 L'eccezione si verifica se uno o più input sono null o vuoti.
Errore 0020 Si verifica un'eccezione se il numero di colonne in alcuni set di dati passati al modulo è troppo piccolo.
Errore 0021 Si verifica un'eccezione se il numero di righe in alcuni set di dati passati al modulo è troppo piccolo.

Per un elenco degli errori specifici dei moduli di Studio (versione classica), vedere Machine Learning Codici di errore.

Per un elenco delle eccezioni API, vedere Machine Learning codici di errore dell'API REST.

Vedi anche

Funzioni statistiche
Elenco moduli A-Z