Migliorare il modello di ML.NET

Articolo
01/29/2025

Informazioni su come migliorare il modello di ML.NET.

Riframeare il problema

In alcuni casi, il miglioramento di un modello potrebbe non avere nulla a che fare con i dati o le tecniche usate per eseguire il training del modello. Invece, potrebbe essere solo che viene posta la domanda sbagliata. Prendere in considerazione il problema da diverse angolazioni e sfruttare i dati per estrarre indicatori latenti e relazioni nascoste per perfezionare la domanda.

Fornire altri esempi di dati

Come gli esseri umani, più vengono allenati gli algoritmi, maggiore è la probabilità di migliorare le prestazioni. Un modo per migliorare le prestazioni del modello consiste nel fornire più esempi di dati di training agli algoritmi. Maggiore è il numero di dati che apprende, più casi è in grado di identificare correttamente.

Aggiungere contesto ai dati

Il significato di un singolo punto dati può essere difficile da interpretare. La creazione di contesto intorno ai punti dati consente agli algoritmi e agli esperti in materia di prendere decisioni migliori. Ad esempio, il fatto che una casa abbia tre camere da letto non è sufficiente per dare una buona indicazione del suo prezzo. Tuttavia, se si aggiunge contesto e ora si sa che si trova in un quartiere periferico al di fuori di una grande area metropolitana dove l'età media è 38, il reddito medio della famiglia è $ 80.000 e le scuole si trovano nel 20° percentile superiore, allora l'algoritmo ha più informazioni su cui basare le proprie decisioni. Tutto questo contesto può essere aggiunto come input al modello di Machine Learning come funzionalità.

Usare dati e funzionalità significativi

Anche se più esempi di dati e funzionalità possono contribuire a migliorare l'accuratezza del modello, possono anche introdurre rumore perché non tutti i dati e le funzionalità sono significativi. È quindi importante comprendere quali funzionalità sono quelle che influiscono maggiormente sulle decisioni prese dall'algoritmo. L'uso di tecniche come Permutation Feature Importance (PFI) consente di identificare tali caratteristiche salienti e non solo di spiegare il modello, ma anche di usare l'output come metodo di selezione delle funzionalità per ridurre la quantità di caratteristiche rumorose che entrano nel processo di training.

Per altre informazioni sull'uso di PFI, vedere Spiegare le stime del modello usando l'importanza della funzionalità permutazione.

Convalida incrociata

La convalida incrociata è una tecnica di training e valutazione del modello che suddivide i dati in più partizioni e esegue il training di più algoritmi su queste partizioni. Questa tecnica migliora l'affidabilità del modello escludendo i dati dal processo di addestramento. Oltre a migliorare le prestazioni sulle osservazioni non visualizzate, negli ambienti vincolati dai dati può essere uno strumento efficace per il training dei modelli con un set di dati più piccolo.

Per altre informazioni, vedere Come usare la convalida incrociata in ML.NET.

Ottimizzazione degli iperparametri

Il training di modelli di Machine Learning è un processo iterativo ed esplorativo. Ad esempio, qual è il numero ottimale di cluster durante il training di un modello usando l'algoritmo K-Means? La risposta dipende da molti fattori, ad esempio la struttura dei dati. La ricerca di tale numero richiederebbe l'esperimento con valori diversi per k e quindi la valutazione delle prestazioni per determinare quale valore è migliore. La pratica di ottimizzazione dei parametri che guidano il processo di training per trovare un modello ottimale è nota come ottimizzazione degli iperparametri.

Scegliere un algoritmo diverso

Le attività di Machine Learning, ad esempio la regressione e la classificazione, contengono varie implementazioni di algoritmi. È possibile che il problema che si sta tentando di risolvere e che il modo in cui i dati siano strutturati non si adattino correttamente all'algoritmo corrente. In questo caso, è consigliabile usare un algoritmo diverso per l'attività per verificare se apprende meglio dai dati.

Il collegamento seguente fornisce altre linee guida su quale algoritmo scegliere.

Condividi tramite