Introducción

Completado

El aprendizaje automático obtiene su potencia predictiva de los datos que lo forman. Para crear modelos eficaces, debe comprender los datos que usa.

Aquí, exploraremos cómo los humanos y los equipos clasifican, almacenan e interpretan los datos. Examinamos en qué consiste un buen conjunto de datos y cómo solucionar los problemas de los datos disponibles. También practicaremos la exploración de nuevos datos, y veremos cómo el pensamiento profundo sobre un conjunto de datos puede ayudarnos a crear mejores modelos predictivos.

Escenario: el último viaje del Titanic

Como entusiasta arqueólogo marino que es, tiene un interés inusual en los desastres marítimos. Una noche, a última hora, entre imágenes de huesos de ballena y antiguos pergaminos sobre la Atlántida, encuentra un conjunto de datos públicos que contiene la lista de pasajeros conocidos y tripulantes del primer (y último) viaje del Titanic. Atrapado por el equilibrio entre el destino y el azar, se pregunta: ¿qué factores determinaron la supervivencia de un pasajero del Titanic? Los datos de este período están algo incompletos. Se desconoce gran cantidad de información para determinados pasajeros. Debe encontrar la manera de revisar estos datos antes de poder analizarlos por completo.

Requisitos previos

  • Cierta familiaridad con conceptos de aprendizaje automático, como modelos y costos, ayuda, pero no es necesario.

Objetivos de aprendizaje

En este módulo, aprenderá a:

  • Visualización de conjuntos de datos grandes con análisis exploratorio de los datos (EDA).
  • Limpiar los errores de un conjunto de datos.
  • Predecir valores desconocidos con datos numéricos y categóricos.