Condividi tramite


Pulire il componente Dati mancanti

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Usare questo componente per rimuovere, sostituire o dedurre valori mancanti.

I data scientist spesso controllano i valori mancanti e quindi eseguono varie operazioni per correggere i dati o inserire nuovi valori. L'obiettivo di tali operazioni di pulizia è prevenire problemi causati da dati mancanti che possono verificarsi durante il training di un modello.

Questo componente supporta più tipi di operazioni per la "pulizia" dei valori mancanti, tra cui:

  • Sostituzione dei valori mancanti con un segnaposto, una media o un altro valore
  • Rimozione completa di righe e colonne con valori mancanti
  • Inferenza di valori basati su metodi statistici

L'uso di questo componente non modifica il set di dati di origine. Crea invece un nuovo set di dati nell'area di lavoro che è possibile usare nel flusso di lavoro successivo. È anche possibile salvare il nuovo set di dati pulito per il riutilizzo.

Questo componente restituisce anche una definizione della trasformazione usata per pulire i valori mancanti. È possibile riutilizzare questa trasformazione in altri set di dati con lo stesso schema usando il componente Applica trasformazione .

Come usare Pulisci dati mancanti

Questo componente consente di definire un'operazione di pulizia. È anche possibile salvare l'operazione di pulizia in modo da poterla applicare in un secondo momento ai nuovi dati. Vedere le sezioni seguenti di come creare e salvare un processo di pulizia:

Importante

Il metodo di pulizia usato per la gestione dei valori mancanti può influire notevolmente sui risultati. È consigliabile sperimentare metodi diversi. Considerare sia la giustificazione per l'uso di un metodo specifico che la qualità dei risultati.

Sostituire valori mancanti

Ogni volta che si applica il componente Pulisci dati mancanti a un set di dati, la stessa operazione di pulizia viene applicata a tutte le colonne selezionate. Pertanto, se è necessario pulire colonne diverse usando metodi diversi, usare istanze separate del componente.

  1. Aggiungere il componente Clean Missing Data (Pulisci dati mancanti) alla pipeline e connettere il set di dati con valori mancanti.

  2. Per Le colonne da pulire, scegliere le colonne che contengono i valori mancanti che si desidera modificare. È possibile scegliere più colonne, ma è necessario usare lo stesso metodo di sostituzione in tutte le colonne selezionate. Pertanto, in genere è necessario pulire le colonne stringa e le colonne numeriche separatamente.

    Ad esempio, per verificare la presenza di valori mancanti in tutte le colonne numeriche:

    1. Selezionare il componente Pulisci dati mancanti e fare clic sulla colonna Modifica nel pannello destro del componente.

    2. Per Includi selezionare Tipi di colonna nell'elenco a discesa e quindi selezionare Numerico.

    Qualsiasi metodo di pulizia o sostituzione scelto deve essere applicabile a tutte le colonne della selezione. Se i dati in una colonna non sono compatibili con l'operazione specificata, il componente restituisce un errore e arresta la pipeline.

  3. Per Rapporto minimo valore mancante specificare il numero minimo di valori mancanti necessari per l'esecuzione dell'operazione.

    Questa opzione viene usata in combinazione con il rapporto valore mancante massimo per definire le condizioni in cui viene eseguita un'operazione di pulizia nel set di dati. Se sono presenti troppi o troppi valori mancanti, l'operazione non può essere eseguita.

    Il numero immesso rappresenta il rapporto tra i valori mancanti e tutti i valori nella colonna. Per impostazione predefinita, la proprietà Rapporto valore minimo mancante è impostata su 0. Ciò significa che i valori mancanti vengono puliti anche se è presente un solo valore mancante.

    Avviso

    Questa condizione deve essere soddisfatta da ogni colonna per poter applicare l'operazione specificata. Si supponga, ad esempio, di aver selezionato tre colonne e quindi di impostare il rapporto minimo dei valori mancanti su .2 (20%), ma solo una colonna contiene effettivamente il 20% dei valori mancanti. In questo caso, l'operazione di pulizia si applica solo alla colonna con più del 20% di valori mancanti. Pertanto, le altre colonne saranno invariate.

    In caso di dubbi sul fatto che i valori mancanti siano stati modificati, selezionare l'opzione Genera colonna indicatore valore mancante. Al set di dati viene aggiunta una colonna per indicare se ogni colonna soddisfa o meno i criteri specificati per gli intervalli minimo e massimo.

  4. In Rapporto valore mancante massimo specificare il numero massimo di valori mancanti che possono essere presenti per l'operazione da eseguire.

    Ad esempio, è possibile eseguire la sostituzione di valori mancanti solo se il 30% o un numero inferiore di righe contiene valori mancanti, ma lasciare invariati i valori se sono presenti più del 30% delle righe.

    Il numero viene definito come rapporto tra i valori mancanti e tutti i valori nella colonna. Per impostazione predefinita, il rapporto valore mancante massimo è impostato su 1. Ciò significa che i valori mancanti vengono puliti anche se manca il 100% dei valori nella colonna.

  5. Per Modalità pulizia selezionare una delle opzioni seguenti per sostituire o rimuovere i valori mancanti:

    • Valore di sostituzione personalizzato: usare questa opzione per specificare un valore segnaposto (ad esempio 0 o NA) che si applica a tutti i valori mancanti. Il valore specificato come sostituzione deve essere compatibile con il tipo di dati della colonna.

    • Sostituire con media: calcola la media della colonna e usa la media come valore di sostituzione per ogni valore mancante nella colonna.

      Si applica solo alle colonne con tipi di dati Integer, Double o Boolean.

    • Sostituire con median: calcola il valore mediano della colonna e usa il valore mediano come sostituzione per qualsiasi valore mancante nella colonna.

      Si applica solo alle colonne con tipi di dati Integer o Double.

    • Sostituisci con la modalità: calcola la modalità per la colonna e usa la modalità come valore sostitutivo per ogni valore mancante nella colonna.

      Si applica alle colonne con tipi di dati Integer, Double, Boolean o Categorical.

    • Rimuovi l'intera riga: rimuove completamente qualsiasi riga nel set di dati con uno o più valori mancanti. Ciò è utile se il valore mancante può essere considerato casualmente mancante.

    • Rimuovi intera colonna: rimuove completamente qualsiasi colonna nel set di dati con uno o più valori mancanti.

  6. L'opzione Valore sostituzione è disponibile se è stata selezionata l'opzione Valore di sostituzione personalizzato. Digitare un nuovo valore da usare come valore sostitutivo per tutti i valori mancanti nella colonna.

    Si noti che è possibile usare questa opzione solo nelle colonne con Integer, Double, Boolean o String.

  7. Genera colonna indicatore valore mancante: selezionare questa opzione se si desidera restituire un'indicazione di se i valori nella colonna soddisfano i criteri per la pulizia dei valori mancanti. Questa opzione è particolarmente utile quando si configura una nuova operazione di pulizia e si vuole assicurarsi che funzioni come progettato.

  8. Inviare la pipeline.

Risultati

Il componente restituisce due output:

  • Set di dati pulito: set di dati costituito dalle colonne selezionate, con valori mancanti gestiti come specificato, insieme a una colonna indicatore, se questa opzione è stata selezionata.

    Anche le colonne non selezionate per la pulizia vengono "passate".

  • Trasformazione della pulizia: trasformazione dei dati usata per la pulizia, che può essere salvata nell'area di lavoro e applicata ai nuovi dati in un secondo momento.

Applicare un'operazione di pulizia salvata ai nuovi dati

Se è necessario ripetere spesso le operazioni di pulizia, è consigliabile salvare la ricetta per la pulizia dei dati come trasformazione, per riutilizzare con lo stesso set di dati. Il salvataggio di una trasformazione di pulizia è particolarmente utile se è necessario importare di frequente e quindi pulire i dati con lo stesso schema.

  1. Aggiungere il componente Applica trasformazione alla pipeline.

  2. Aggiungere il set di dati da pulire e connettere il set di dati alla porta di input di destra.

  3. Espandere il gruppo Trasformazioni nel riquadro a sinistra della finestra di progettazione. Individuare la trasformazione salvata e trascinarla nella pipeline.

  4. Connettere la trasformazione salvata alla porta di input sinistra della trasformazione Applica.

    Quando si applica una trasformazione salvata, non è possibile selezionare le colonne a cui viene applicata la trasformazione. Ciò è dovuto al fatto che la trasformazione è già stata definita e si applica automaticamente alle colonne specificate nell'operazione originale.

    Si supponga tuttavia di aver creato una trasformazione in un subset di colonne numeriche. È possibile applicare questa trasformazione a un set di dati di tipi di colonne miste senza generare un errore, perché i valori mancanti vengono modificati solo nelle colonne numeriche corrispondenti.

  5. Inviare la pipeline.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.