Resumen
Hemos visto mucho contenido. Vamos a revisar algunos de los mensajes clave.
¿Qué son las categorías de datos?
Los datos se dividen en varias categorías conceptuales. Los más comunes son:
- Datos continuos (números).
- Datos categóricos que no tienen ningún orden.
- Datos ordinales, que se pueden tratar como números o categorías ordenadas.
Los equipos almacenan los datos como tipos distintos y, normalmente, intentamos hacer coincidir el tipo de datos con los datos específicos. Por ejemplo, para almacenar datos continuos, los números de punto flotante funcionan mejor porque los números de punto flotante permiten el almacenamiento de fracciones. Por el contrario, los datos categóricos suelen obtenerse como cadenas (texto) y deben convertirse en vectores one-hot para que el equipo los entienda correctamente.
¿Qué hace que un conjunto de datos sea bueno?
Hemos aprendido que un conjunto de datos es útil si:
- Contiene información relevante.
- Está completo.
- Es una buena representación de la población (mundo real).
Si nos encontramos con datos incompletos, podemos tomar medidas para asegurarnos de que no causen problemas importantes. Al hacerlo, debemos evitar la introducción de nuevos problemas, como los cambios que harían que los datos ya no fueran representativos.
Reflexiones sobre los datos
Hemos visto cómo la visualización de los datos puede ayudar a comprender qué puede ser útil en un modelo. El uso de diferentes tipos de gráficos, colores y similares puede ser divertido y hacer que la información compleja sea mucho más intuitiva.
Hemos aprendido que entender los datos nos permite tomar mejores decisiones sobre los modelos. En el último ejercicio, hemos mejorado nuestro modelo con el recuento de camarotes del Titanic y hemos considerado cómo nos ayuda esta información. Sin embargo, en general, hemos visto que podríamos mejorar esto simplificándolo en nueve etiquetas Deck.