Miglioramento dei modelli di classificazione

Completato

Negli esercizi è stato rilevato che il modello è in grado di prevedere le valanghe fino a un certo punto, ma commette ancora errori nel 40% dei casi. Questo errori dipendono dal fatto che la caratteristica, il numero di nevicate deboli, non è l'unico fattore responsabile delle valanghe.

Ecco i due modi principali per migliorare le prestazioni del modello di classificazione: fornire un maggior numero di caratteristiche ed essere selettivi sui dati da includere nel modello.

Fornire altre funzionalità

Analogamente alla regressione lineare, la regressione logistica non deve essere limitata a un singolo input. Può combinare le caratteristiche per formulare previsioni. Ad esempio, si può provare a prevedere le valanghe in base alle precipitazioni nevose e al numero di escursionisti che percorrono un sentiero. È possibile immettere entrambe queste caratteristiche nello stesso modello per calcolare la probabilità che si verifichi una valanga.

Internamente, la regressione logistica combina le caratteristiche in modo analogo alla regressione lineare. In altre parole, considera tutte le caratteristiche come indipendenti, ovvero presuppone che le caratteristiche non influiscono l'una sull'altra. Ad esempio, il modello usato presuppone che il numero di precipitazioni nevose non influisca sul numero di persone che percorrono il sentiero. Per impostazione predefinita, presuppone anche che le precipitazioni nevose implichino un certo aumento del rischio di valanghe, indipendentemente dal numero di escursionisti che percorrono il sentiero.

Aspetti positivi e negativi delle caratteristiche indipendenti

È possibile indicare in modo esplicito alla regressione logistica di combinare le caratteristiche in modo che sia possibile modellarle insieme, ma questo non avviene per impostazione predefinita. Differenziazione della regressione logistica dalla maggior parte degli altri algoritmi di categorizzazione noti, ad esempio gli alberi delle decisioni e le reti neurali.

Il fatto che la regressione logistica consideri le caratteristiche come indipendenti per impostazione predefinita costituisce sia un punto di forza che una limitazione da tenere presente. Ad esempio, consente di formulare previsioni chiare in modo semplice, come più persone ci sono più aumenta il rischio, che in genere non può essere fatto con altri modelli. Riduce anche la probabilità di overfitting dei dati di training. Al contrario, il modello può risultare non adeguato se le caratteristiche interagiscono effettivamente nel mondo reale. Ad esempio, la presenza di cinque escursionisti che scalano una montagna costituisce un rischio in caso di precipitazioni nevose, mentre gli stessi cinque escursionisti sono al sicuro se non è in corso una nevicata che causa una valanga. Per cogliere questa sfumatura, è necessario indicare in modo esplicito a un modello di regressione logistica di cercare un'interazione tra le precipitazioni nevose e il numero di escursionisti in questo esempio.

Riflettere sulle caratteristiche disponibili

L'altro modo per migliorare i modelli è quello di pensare attentamente alle caratteristiche fornite e ai motivi per cui sono state scelte. In genere, maggiore è il numero di funzionalità che si aggiungono a un modello, migliore sarà il suo funzionamento. Questa correlazione vale, però, solo se le caratteristiche fornite sono pertinenti e illustrano aspetti che le caratteristiche esistenti non includono.

Evitare l'overtraining

Se si forniscono altre caratteristiche che non sono utili, può verificarsi l'overtraining del modello. Il modello è apparentemente adeguato, ma in realtà è inadeguato nel mondo reale.

Si supponga, ad esempio, di avere a disposizione dati registrati quotidianamente relativi alla quantità di precipitazioni nevose, al numero di escursionisti, alla temperatura e al numero di uccelli avvistati. Il numero di uccelli avvistati non costituisce probabilmente un dato pertinente. Tuttavia, se specificato, il modello finisce per modellare una relazione tra valanghe e il numero di uccelli avvistati nei giorni specificati. Se sono stati avvistati più uccelli nei giorni in cui si sono verificate valanghe, il modello suggerisce che gli uccelli potrebbero essere responsabili della causa delle valanghe. Si potrebbe quindi istituire un programma sistematico di bird watching per prevedere le valanghe, solo per scoprire che non funziona affatto.

Evitare l'undertraining

L'uso ingenuo delle caratteristiche può anche causare un undertraining e di conseguenza impedire previsioni nel modo più corretto possibile. Ad esempio, la temperatura e il numero di escursionisti potrebbero essere entrambi strettamente collegati alle valanghe. Se, tuttavia, le persone fanno escursioni solo nei giorni di sole, il modello potrebbe avere difficoltà a distinguere quanto sono importanti gli escursionisti rispetto alla temperatura. Analogamente, è possibile che il modello sia più adeguato se si specifica il numero di escursionisti come conteggio esatto dei visitatori, invece di usare semplicemente l'etichetta high o low. Lasciare quindi che il training del modello trovi una relazione più esatta.