¿Qué son los modelos de clasificación?
Los modelos de clasificación se usan para tomar decisiones o asignar elementos a categorías. A diferencia de los módulos de regresión, que emiten números continuos, como alturas o pesos, los modelos de clasificación emiten valores booleanos (true
o false
) o decisiones categóricas, como apple
, banana
o cherry
.
Hay muchos tipos de modelos de clasificación. Algunos funcionan de forma similar a los modelos de regresión clásica, mientras que otras son esencialmente diferentes. Uno de los mejores modelos para aprender inicialmente se denomina regresión logística.
¿Qué es la regresión logística?
La regresión logística es un tipo de modelo de clasificación que funciona de forma similar a la regresión lineal. La diferencia entre esta y la regresión lineal es la forma de la curva. Mientras que la regresión lineal simple tiene forma de línea recta a los datos, los modelos de regresión logística tienen forma de curva en forma de s:
La regresión logística es mejor para estimar los resultados booleanos que la regresión lineal, porque la curva logística siempre genera un valor entre 0 (false) y 1 (true). Cualquier valor entre estos dos se puede considerar una probabilidad.
Por ejemplo, supongamos que estamos intentando predecir si se producirá un alud hoy. Si nuestro modelo de regresión logística nos proporciona el valor de 0,3, estima que la probabilidad de producirse un alud es del 30 %.
Conversión de salidas en categorías
Dado que la regresión logística nos proporciona estas probabilidades, en lugar de valores true o false simples, es necesario realizar pasos adicionales para convertir el resultado en una categoría. La manera más sencilla de hacerlo es aplicar un umbral. Por ejemplo, en el gráfico siguiente, el umbral se establece en 0,5. Este umbral significa que cualquier valor de Y por debajo de 0,5 se convierte en false (cuadro inferior izquierdo) y cualquier valor situado por encima de 0,5 se convierte en true (cuadro superior derecho).
Si observamos el gráfico, podemos ver que esto significa que, si la característica está por debajo de 5, la probabilidad será menor que 0,5 y, por tanto, se convertirá en false. Los valores de la característica superiores a 5 ofrecen probabilidades superiores a 0,5, por lo que se convertirán en true.
Es importante que la regresión logística no tenga que limitarse a un resultado true o false; también se puede usar cuando hay tres o más resultados potenciales, como rain
, snow
o sun
. Este tipo de resultados requiere una configuración algo más compleja, denominada regresión logística multinomial. Aunque no la practicaremos durante los ejercicios siguientes, merece la pena tenerla en cuenta en situaciones en las que sea necesario realizar predicciones que no sean binarias.
También merece la pena tener en cuenta que la regresión logística puede usar más de una característica de entrada (lo veremos más adelante).