Melhorar os modelos de classificação

Concluído

Em nossos exercícios, descobrimos que nosso modelo poderia prever avalanches em algum grau, mas ainda estava errado em cerca de 40% das vezes. Essa quantidade de erro ocorre porque nosso recurso – o número de camadas fracas de neve – não é a única coisa responsável por avalanches.

Agora, vamos mergulhar nas duas principais maneiras de melhorar o desempenho do modelo de classificação: fornecer mais recursos e ser seletivo sobre o que entra no modelo.

Forneça mais recursos

Assim como a regressão linear, a regressão logística não precisa ser limitada a uma única entrada. Ele pode combinar recursos para fazer previsões. Por exemplo, podemos tentar prever avalanches com base na queda de neve e no número de caminhantes perturbando uma trilha. Podemos inserir ambas as características no mesmo modelo para calcular a probabilidade de uma avalanche.

Internamente, a regressão logística combina características semelhantes à regressão linear. Ou seja, trata todas as características como independentes, o que significa que assume que as características não influenciam umas às outras. Por exemplo, o nosso modelo assume que a quantidade de neve não altera o número de pessoas que visitam o trilho. Por padrão, ele também assume que a queda de neve aumenta o risco de avalanche em uma quantidade definida – independentemente de quantos caminhantes estão andando pela trilha.

Os lados bom e ruim dos recursos independentes

A regressão logística pode ser explicitamente instruída a combinar recursos para que a forma como eles funcionam juntos possa ser modelada, mas não por padrão. Tornando a regressão logística diferente da maioria dos outros algoritmos de categorização bem conhecidos, como árvores de decisão e redes neurais.

O fato de que a regressão logística trata as características como independentes por padrão é tanto uma força quanto uma limitação que devem ser mantidas em mente. Por exemplo, pode fazer previsões claras de forma simples, como aumentar o número de pessoas aumenta o risco, o que normalmente não pode ser feito com outros modelos. Também reduz a possibilidade de sobreajustar os dados de treino. Por outro lado, o modelo pode não funcionar bem se os recursos realmente interagirem no mundo real. Por exemplo, cinco caminhantes cruzando uma montanha são arriscados se houver neve, mas cinco pessoas estão seguras se não houver queda de neve para causar uma avalanche. Um modelo de regressão logística precisa ser dito explicitamente para procurar uma interação entre queda de neve e número de caminhantes neste exemplo para pegar essa nuance.

Pense nas suas funcionalidades

A outra maneira de melhorar os modelos é pensar realmente quais recursos são fornecidos e por quê. Geralmente, quanto mais recursos adicionarmos a um modelo, melhor o modelo funciona. Essa correlação só é verdadeira, no entanto, se os recursos que fornecemos forem relevantes e explicarem algo que os recursos existentes não fazem.

Evitar o excesso de treino

Se fornecermos mais recursos que não são úteis, o modelo pode sobrecarregar. Dando a aparência de trabalhar melhor, mas na verdade trabalhando pior no mundo real.

Por exemplo, imagine se tivéssemos registros diários da amount_of_snow, number_of_hikers, temperatura e number_of_birds_spotted. O número de aves avistadas provavelmente não é uma informação relevante. No entanto, se fornecido, o modelo acaba modelando uma relação entre avalanches e o número de aves avistadas em determinados dias. Se as aves fossem mais avistadas em dias de avalanche, o modelo sugere que as aves poderiam ser responsáveis por causar avalanches. Podemos então criar um programa sistemático de observação de aves para prever avalanches, apenas para descobrir que não funciona de todo.

Evitar a subformação

Usar recursos de forma ingênua também pode levar ao subtreinamento e não fazer previsões da forma mais correta possível. Por exemplo, a temperatura e o number_of_hikers podem estar intimamente ligados a avalanches. No entanto, se as pessoas só caminharem em dias ensolarados, o modelo pode achar difícil diferenciar a importância dos caminhantes em comparação com a temperatura. Da mesma forma, podemos achar que nosso modelo funciona melhor se fornecermos nossos number_of_hikers como uma contagem exata de visitantes, em vez de simplesmente high ou low. Então, deixe que nosso treinamento modelo encontre uma relação mais exata.