Datos correctos e incorrectos y datos que faltan

Completado

Como efecto secundario de la influencia de los datos en el aprendizaje automático, los modelos entrenados solo en pequeñas cantidades de datos rara vez funcionan bien en el mundo real. Este comportamiento se produce porque las pequeñas cantidades de datos no suelen servir como representaciones correctas del mundo real. Por ejemplo, cuatro personas de la Tierra seleccionadas aleatoriamente no representarían de forma fiable a la persona media del planeta. Por el contrario, si seleccionamos mil millones de personas, es probable que nuestros datos sean representativos.

Sin embargo, hay otros factores que también tienen importancia. Necesitamos ejemplos de datos grandes y representativos que:

  • Tengan cero errores.
  • Contengan toda la información clave.

Aquí tratamos estas cuestiones, antes de pasar a un ejercicio práctico con nuestro conjunto de datos del Titanic.

“Representativas”, ¿qué significa?

Los estadísticos se basan en dos conceptos clave (las poblaciones y las muestras) para decidir si los recursos de datos disponibles realmente ayudan a su análisis y estudio.

Nos centramos en una población. Es decir, en cada punto de datos concebible. Para nuestro escenario del Titanic, queremos saber qué factores llevaron a la supervivencia para todos a bordo. Esto incluye a los polizones no incluidos en los registros oficiales. Como segundo ejemplo, investigar la relación entre los rasgos de la personalidad y la probabilidad de hundimiento del barco, nuestra población cubriría todos los capitanes de navío que han existido.

Una muestra hace referencia a los datos que tenemos disponibles, como un subconjunto de la población total. Para nuestro conjunto de datos del Titanic, esta muestra cubre solo las personas que aparecen en la lista oficial de pasajeros. Para nuestro segundo ejemplo, la muestra podría cubrir todos los capitanes de navío a los que podamos convencer para que hagan un test de personalidad en nuestro pequeño puerto local.

Debemos pensar si la muestra representa con precisión a la población. Para nuestro ejemplo del Titanic, nuestra muestra es tan grande que probablemente sirva como una buena representación de la población. Sin embargo, es probable que las conversaciones solo con capitanes de navío en nuestro pequeño puerto local no nos proporcionen una buena sección transversal de los marineros que encontraríamos en todo el mundo. El uso de datos de nuestro pequeño puerto local podría crear un modelo que funcione bien para los capitanes locales, pero que no nos sirva para conocer a los capitanes de otros países o regiones.

¿Qué es un error de datos?

El término error de datos hace referencia a datos incorrectos. Suficientes errores de datos pueden sesgar un modelo, que realizará constantemente predicciones incorrectas. Es sencillo: si pones datos incorrectos, obtendrás predicciones incorrectas.

Los errores en los datos son una realidad y podemos agruparlos en dos categorías: errores de medición y errores de entrada de datos.

El término errores de medición hace referencia a datos con mediciones de baja calidad en la fase de recopilación de datos. Estos errores suelen ser sutiles y difíciles o imposibles de eliminar.

El término errores de entrada de datos hace referencia a datos recogidos con precisión que después se ponen de forma incorrecta o inexacta en una hoja de cálculo o un recurso de administración de datos. A veces, podemos detectar errores de entrada de datos más fácilmente de lo que podemos detectar errores de medición. Por ejemplo, podemos tomarle la altura a alguien que mide 1,8 m, pero poner mal el decimal y escribir 18 m. Aquí podemos ver fácilmente el error porque una persona del tamaño de un árbol no es realista.

¿Qué son los datos completos?

En un conjunto de datos completo no faltan datos. Los datos que faltan son de dos tipos. Estos datos muestran la altura y el peso de Dylan, Reece y Tom:

Nombre Altura (m) Peso (kg)
Dylan 1.8 75
Reece 82

Los datos están incompletos porque falta una muestra, la de Tom. Además, los datos de Reece no muestran su altura.

En una situación ideal, trabajaríamos siempre con datos completos, pero no siempre tenemos datos completos disponibles. Para los datos incompletos, podemos realizar una de las acciones siguientes:

  • Elegir un modelo que pueda funcionar con datos incompletos.
  • Quitar las muestras (filas) que tengan datos incompletos y trabajar con los datos que queden.
  • Agregar valores artificialmente como sustitutos razonables de los datos que faltan.

La mayoría de las veces, es mejor elegir un modelo que pueda controlar los datos que faltan, aunque no siempre es posible. La eliminación de datos incompletos es el enfoque más sencillo y normalmente funciona. Sin embargo, debemos tener cuidado de que la eliminación de datos no haga que una muestra sea una mala representación de la población. La adición de datos de forma artificial suele ser el último recurso.

En la unidad siguiente, trabajaremos con el conjunto de datos del Titanic, donde identificaremos los datos incompletos y los remediaremos.