Che cosa sono i modelli di classificazione?

Completato

I modelli di classificazione vengono usati per prendere decisioni o assegnare elementi a diverse categorie. A differenza dei moduli di regressione, che generano numeri continui, ad esempio altezze o pesi, i modelli di classificazione generano valori booleani, ovvero true o false, oppure decisioni relative alle categorie, ad esempio apple, banana o cherry.

Esistono molti tipi di modelli di classificazione. Alcuni funzionano in modo analogo ai modelli di regressione classica, mentre altri sono fondamentalmente diversi. Uno dei modelli migliori da conoscere inizialmente è denominato regressione logistica.

Che cos'è la regressione logistica?

La regressione logistica è un tipo di modello di classificazione che funziona in modo analogo alla regressione lineare. La differenza tra questo modello e la regressione lineare è la forma della curva. Mentre la regressione lineare semplice adatta una linea retta ai dati, i modelli di regressione logistica adattano una curva a forma di s:

Diagramma che mostra un grafico di esempio della regressione logistica.

Per la stima dei risultati booleani la regressione logistica è migliore rispetto alla regressione lineare perché la curva logistica produce sempre un valore compreso tra 0 (false) e 1 (true). Qualunque valore compreso tra questi due valori può essere considerato come una probabilità.

Si supponga, ad esempio, di provare a prevedere se oggi potrebbe verificarsi una valanga. Se il modello di regressione logistica restituisce il valore 0,3, stima che la probabilità che si verifichi una valanga sia pari al 30%.

Conversione dei valori di output in categorie

Poiché la regressione logistica restituisce queste probabilità, anziché semplici valori true/false, è necessario eseguire passaggi aggiuntivi per convertire il risultato in una categoria. Il modo più semplice per eseguire questa conversione consiste nell'applicare una soglia. Ad esempio, nel grafico seguente la soglia è impostata su 0,5. Questa soglia significa che qualsiasi valore y inferiore a 0,5 viene convertito in false (casella in basso a sinistra) e qualsiasi valore superiore a 0,5 viene convertito in true (casella in alto a destra).

Diagramma che mostra un grafico di funzione logistica.

Osservando il grafico, si può notare che quando il valore della funzionalità è inferiore a 5, la probabilità è minore di 0,5 e quindi il valore viene convertito in false. I valori delle funzionalità superiori a 5 corrispondono a probabilità maggiori di 0,5 e quindi verranno convertiti in true.

È importante sottolineare che la regressione logistica non deve essere limitata a un risultato true/false, ma può essere usata anche in caso di tre o più potenziali risultati, ad esempio rain, snow o sun. Questo tipo di esito richiede una configurazione leggermente più complessa, denominata regressione logistica multinomiale. Anche se questa regressione logistica multinomiale non sarà oggetto dei prossimi esercizi, vale la pena considerarla in situazioni in cui è necessario eseguire previsioni non binarie.

Vale anche la pena notare che la regressione logistica può usare più caratteristiche di input, come verrà illustrato più avanti.