Mejora de los modelos de clasificación

Completado

En los ejercicios, encontramos que nuestro modelo podía predecir aludes hasta cierto punto, pero seguía siendo incorrecto en torno al 40 % del tiempo. Esta cantidad de error se debe a que nuestra característica (el número de capas de nieve débiles) no es lo único que provoca aludes.

Vamos a analizar con detalle las dos formas principales de mejorar el rendimiento del modelo de clasificación: proporcionar características adicionales y ser selectivos sobre lo que se incluye en el modelo.

Proporcionar características adicionales

Al igual que la regresión lineal, la regresión logística no tiene que limitarse a una sola entrada. Puede combinar características para realizar predicciones. Por ejemplo, podríamos intentar predecir aludes en función de las nevadas y del número de senderistas que alteran una pista. Podemos especificar ambas características en el mismo modelo para calcular una probabilidad de alud.

Internamente, la regresión logística combina características de forma similar a la regresión lineal. Es decir, trata todas las características como independientes, lo que significa que supone que las características no influyen entre sí. Por ejemplo, nuestro modelo supone que la cantidad de nieve no cambia la cantidad de personas que visitarán la pista. De forma predeterminada, también se da por supuesto que las nevadas aumentan el riesgo de aludes en una cantidad establecida, independientemente de cuántos senderistas recorran la pista.

Aspectos positivos y negativos de las características independientes

Se puede indicar explícitamente a la regresión logística que combine características para que se pueda modelar la interacción entre estas, lo que no se llevará a cabo de forma predeterminada. Hacer que la regresión logística sea diferente de la mayoría de otros algoritmos de categorización conocidos, como árboles de decisión y redes neuronales.

El hecho de que la regresión logística trate las características como independientes de forma predeterminada es un punto fuerte y una limitación a tener en cuenta. Por ejemplo, puede hacer predicciones claras de manera sencilla, como un mayor número de personas aumenta el riesgo, lo que normalmente no se puede hacer con otros modelos. También reduce la posibilidad de sobreajustar los datos de entrenamiento. Por el contrario, el modelo puede no funcionar bien si las características interactúan realmente. Por ejemplo, es arriesgado que cinco senderistas atraviesen una montaña si hay nieve, pero no lo es si no hay nieve que pueda provocar un alud. Se debe indicar explícitamente a un modelo de regresión logística que busque una interacción entre la nevada y el número de senderistas de este ejemplo para considerar este matiz.

Considerar las características

La otra manera de mejorar los modelos es pensar realmente qué características se proporcionan y por qué. Por lo general, cuantas más características agreguemos a un modelo, mejor funcionará. Sin embargo, esta correlación solo es cierta si las características que proporcionamos son realmente pertinentes y explican algo que no describen las características existentes.

Evitar el sobreentrenamiento

Si proporcionamos características adicionales que no son especialmente útiles, el modelo puede sobreentrenarse. Puede parecer que funciona mejor, pero realmente funciona peor.

Por ejemplo, imagine si hubo registros diarios de amount_of_snow (cantidad de nieve), number_of_hikers (número de senderistas), temperature (temperatura) y number_of_birds_spotted (cantidad de aves avistadas). Es probable que el número de aves avistadas no sea información relevante. Sin embargo, si se proporcionan, el modelo acabará modelando una relación entre los aludes y el número de aves avistadas en días determinados. Si las aves se avistaron más en días en que se produjeron aludes, el modelo sugerirá que las aves podrían ser responsables de provocar aludes. A continuación, podríamos configurar un programa de observación sistemática de aves para predecir aludes, para concluir que no funciona en absoluto.

Evitar un entrenamiento deficiente

El uso de características de forma inocente también puede llevar a un entrenamiento deficiente y a no realizar predicciones de la forma más correcta posible. Por ejemplo, los valores de temperature (temperatura) y number_of_hikers (número de senderistas) pueden estar estrechamente vinculados a los aludes. Sin embargo, si las personas solo hacen senderismo en días soleados, es posible que al modelo le resulte difícil diferenciar la importancia de los senderistas en comparación con la temperatura. Del mismo modo, es probable que descubramos que el modelo funciona mejor si proporcionamos el valor de number_of_hikers (número de senderistas) como un recuento exacto de visitantes, en lugar de simplemente un valor high o low. A continuación, deje que el entrenamiento del modelo encuentre una relación más exacta.