Examen de datos del mundo real

Completado

Los datos presentados en el material educativo suelen ser notablemente perfectos, diseñados para mostrar a los alumnos cómo encontrar relaciones claras entre las variables. Los datos del mundo real son algo menos sencillos.

Debido a la complejidad de los datos "reales", tenemos que inspeccionar los datos sin procesar en busca de problemas antes de usarlos.

Por ello, el procedimiento recomendado es inspeccionar los datos sin procesar y procesarlos antes de utilizarlos, lo que reduce los errores o problemas, normalmente eliminando los puntos de datos erróneos o modificando los datos para que sean más útiles.

Problemas de los datos del mundo real

Los datos del mundo real pueden contener muchos problemas diferentes que pueden afectar a la utilidad de los datos y a nuestra interpretación de los resultados.

Es importante tener en cuenta que la mayoría de los datos del mundo real están influenciados por factores que no se registraron en ese momento. Por ejemplo, podríamos tener una tabla con los tiempos de los coches de carreras junto con los tamaños de los motores, pero otros factores que no se anotaron, como el clima, probablemente también influyeron. Si son problemáticos, a menudo se puede reducir la influencia de estos factores aumentando el tamaño del conjunto de datos.

En otras situaciones, los puntos de datos que están claramente fuera de lo esperado, también conocidos como valores atípicos, a veces se pueden quitar de forma segura de los análisis, aunque se debe tener cuidado para no quitar puntos de datos que proporcionen información real.

Otro problema común en los datos del mundo real es el sesgo. El sesgo se refiere a la tendencia a seleccionar ciertos tipos de valores con más frecuencia que otros, de forma que se falsea la población subyacente, o el "mundo real". A veces se puede identificar el sesgo explorando los datos y teniendo en cuenta los conocimientos básicos sobre la procedencia de estos.

Los datos reales siempre tendrán problemas, pero los científicos de datos suelen poder superar estos problemas de las siguientes formas:

  • Comprobando los valores que faltan y los datos registrados de forma incorrecta.
  • Considerando la posibilidad de quitar valores atípicos obvios.
  • Examinando qué factores reales pueden afectar a su análisis y determinar si el tamaño del conjunto de datos es lo suficientemente grande como para reducir el impacto de estos factores.
  • Comprobando los datos sin procesar sesgados y teniendo en cuenta sus opciones para corregir el sesgo, si se detecta.