O que são modelos de classificação?
Os modelos de classificação são usados para tomar decisões ou atribuir itens em categorias. Ao contrário dos módulos de regressão, que produzem números contínuos, como alturas ou pesos, os modelos de classificação produzem valores booleanos — ou true
false
— ou decisões categóricas, como apple
, banana
ou cherry
.
Existem muitos tipos de modelos de classificação. Alguns funcionam de forma semelhante aos modelos clássicos de regressão, enquanto outros são fundamentalmente diferentes. Um dos melhores modelos para aprender inicialmente é chamado de regressão logística.
O que é regressão logística?
A regressão logística é um tipo de modelo de classificação que funciona de forma semelhante à regressão linear. A diferença entre isso e a regressão linear é a forma da curva. Enquanto a regressão linear simples ajusta uma linha reta aos dados, os modelos de regressão logística se ajustam a uma curva em forma de s:
A regressão logística é melhor para estimar os resultados booleanos do que a regressão linear porque a curva logística sempre produz um valor entre 0 (falso) e 1 (verdadeiro). Qualquer coisa entre estes dois valores pode ser pensada como uma probabilidade.
Por exemplo, digamos que estamos tentando prever se uma avalanche pode ocorrer hoje. Se nosso modelo de regressão logística nos der o valor de 0,3, então ele estima que há uma probabilidade de 30% de uma avalanche.
Convertendo saídas em categorias
Como a regressão logística nos dá essas probabilidades, em vez de simples valores verdadeiros/falsos, precisamos tomar medidas extras para converter o resultado em uma categoria. A maneira mais simples de fazer essa conversão é aplicar um limite. Por exemplo, no gráfico a seguir, nosso limite é definido como 0,5. Esse limite significa que qualquer valor y abaixo de 0,5 é convertido em falso — caixa inferior esquerda — e qualquer valor acima de 0,5 é convertido em verdadeiro — caixa superior direita.
Olhando para o gráfico, podemos ver que quando o recurso está abaixo de 5, a probabilidade é inferior a 0,5 e é convertida em falsa. Valores de recurso acima de 5 dão probabilidades acima de 0,5 e são convertidos em true.
É notável que a regressão logística não precisa ser limitada a um resultado verdadeiro/falso – ela também pode ser usada quando há três ou mais resultados potenciais, como rain
, snow
ou sun
. Este tipo de desfecho requer uma configuração um pouco mais complexa, chamada regressão logística multinomial. Embora não pratiquemos a regressão logística multinomial durante os próximos exercícios, vale a pena considerar em situações em que você precisa fazer previsões que não são binárias.
Também vale a pena notar que a regressão logística pode usar mais de um recurso de entrada: mais sobre este caso em breve.