Examinar distintos tipos de datos
"Datos" es simplemente otra palabra para expresar "información recopilada". Los volúmenes y las masas de información disponibles son enormes y abarcan muchos tipos de información diferentes.
Podemos clasificar los datos de muchas maneras. Para operar en el espacio de aprendizaje automático, debemos comprender tanto el tipo como los sistemas de almacenamiento digital de los datos disponibles.
Datos continuos, ordinales y categóricos
Para las operaciones con datos, a veces necesitamos conocer lo que representan exactamente esos datos. Este conocimiento puede ayudarnos a elegir el modelo de aprendizaje automático adecuado. También puede ayudarnos a organizar nuestros datos de maneras específicas y útiles.
Datos continuos hace referencia a información numérica que puede aumentar o disminuir en cualquier cantidad. Por ejemplo, puede agregar un milímetro a un medidor y calcular una suma como 1,001 metros.
Datos categóricos hace referencia a los datos que no se encuentran en un espectro continuo. En nuestro escenario, los datos clasifican a las personas del Titanic como tripulación o pasajeros. Los datos categóricos no se pueden almacenar como números de una manera claramente obvia.
Datos ordinales hace referencia a datos categóricos que tienen un orden definido y, por tanto, pueden admitir el almacenamiento como valores numéricos. Por ejemplo, podemos definir valores grande, mediano y pequeño como datos ordinales porque podemos clasificarlos numéricamente: grande > mediano > pequeño. Por el contrario, los valores manzana, naranja y coco son categóricos, porque no podemos clasificarlos. Los datos ordinales también pueden hacer referencia a números que se pueden incrementar o reducir, pero solo en cantidades establecidas. Por ejemplo, se garantiza que el número de personas a bordo de un barco sea un número entero, ya que nadie puede media pensión.
Id. hace referencia a un tipo especial de datos categóricos donde cada muestra tiene su propio id. único. Por ejemplo, cada persona de nuestro conjunto de datos en el Titanic tiene un valor de identificador determinado, incluso si esa persona tiene el mismo nombre que otra persona. Los valores de identidad nos ayudan a navegar en un conjunto de datos, pero nuestro análisis de datos no implica directamente esos valores.
Tipos de datos
Debemos almacenar y procesar en un equipo todos los datos que usamos para el aprendizaje automático. Mientras que en un papel podemos escribir casi cualquier dato con un lápiz, los equipos almacenan información en forma de series de ceros y unos. Esto impone restricciones a la forma en la que usamos la información.
El tipo de datos hace referencia al tipo de datos que almacena un equipo. Los tipos de datos suelen tener estas categorías:
- Enteros: contar números como 2.
- Números de punto flotante: números con posiciones decimales como 2,43.
- Cadenas: letras y palabras.
- Booleanos: verdadero y falso.
- Ninguno, nulo o vacío: no son datos, sino más bien la ausencia de datos.
Los términos exactos y la implementación de estos conceptos varían de un lenguaje a otro, pero todos funcionan de maneras similares en todos los lenguajes de programación.
A veces, dos tipos de datos diferentes ofrecen una funcionalidad equivalente. Por ejemplo, los equipos pueden controlar valores verdadero/falso como booleanos (verdadero o falso), cadenas (y o n), enteros (0 o 1) o números de punto flotante (0,0 o 1,0).
Tipos de datos derivados
A medida que usamos tecnología, encontramos muchos más tipos de datos básicos y primitivos más allá de la lista anterior. Los equipos pueden almacenar fechas, imágenes y modelos 3D, entre otros. A estos nos referimos como tipos de datos derivados. Comenzamos con uno o varios tipos de datos primitivos para construir un tipo de datos derivado.
A menudo en el aprendizaje automático, ayuda a convertir tipos derivados en representaciones más sencillas. Por ejemplo, podemos almacenar un valor de fecha definido como 1 de enero de 2017 como un número entero o de punto flotante, como 20170101. Los números enteros o de punto flotante facilitan los cálculos subyacentes de los modelos.
¿Demasiadas opciones?
Saber qué clase de datos tiene puede ayudarle a elegir el tipo de datos correcto.
El tipo de datos correcto puede depender del paquete que se usa para ejecutar los modelos, aunque generalmente los paquetes son permisivos. En general:
- Para trabajar con datos continuos, los números de punto flotante son la mejor opción.
- Los datos ordinales se suelen codificar con valores enteros.
- Normalmente, los datos categóricos que solo implican dos categorías pueden codificarse como datos booleanos o enteros. Trabajar con tres categorías o más puede ser algo más complicado. No se preocupe, la siguiente lección tratará este tema.
En el ejercicio siguiente, practicaremos la visualización de datos para comprender mejor los datos en sí. Al hacerlo, anote atentamente los tipos de datos implicados e intente identificar los tipos de datos continuos, ordinales o categóricos.