Control de datos que faltan

Completado

Los datos que faltan hacen referencia a la falta de valores en determinadas variables de un conjunto de datos.

Controlar los datos que faltan es un aspecto fundamental de la fase de preprocesamiento en un proyecto de aprendizaje automático; la forma en que se tratan puede afectar significativamente al rendimiento del modelo.

Comprobar los datos que faltan

De nuevo en el escenario de precios de vivienda de la unidad anterior, supongamos que encontramos valores que faltan en el dataframe df que requieren atención.

Para comprobar si faltan datos en Data Wrangler, primero debe iniciar Data Wrangler desde un cuaderno de Microsoft Fabric. Una vez allí, hay varias opciones.

Captura de pantalla de cómo comprobar la información de datos que faltan en Data Wrangler

  1. Encabezado de columna: Muestra el recuento y la proporción de valores que faltan para cada variable en la parte superior de la cuadrícula.
  2. Panel de resumen: Destaca las estadísticas de resumen de la columna o dataframe seleccionados, incluidos los valores que faltan.
  3. Operador de filtro: Filtra las filas según una o varias condiciones. Esta opción también está disponible en el encabezado de columna al seleccionar Más opciones para la columna.

Gestión de la ausencia de datos

Hay varias opciones para gestionar la ausencia de datos.

  • Ignorar: Si faltan muy pocos datos, es posible que el modelo no se vea afectado de forma significativa.

  • Quitar: Es mejor quitar las filas o columnas en las que falten muchos valores.

  • Imputar: Rellene los valores que faltan con un valor o una estimación especificados (como media, mediana, modo o usando un algoritmo de aprendizaje automático como K-Nearest Neighbors (KNN)).

  • Úselo como una nueva característica: A veces, el hecho de que falte un valor se puede usar como información. Por ejemplo, en una encuesta de productos, las preguntas sin respuesta sobre cómo recomendar el producto podrían indicar la frustración del cliente. En este caso, la no respuesta puede ser una nueva característica que indica una probabilidad de frustración del cliente.

Quitar los valores que faltan

En los pasos siguientes se muestra cómo quitar las filas en las que faltan valores en las columnas de destino en Data Wrangler.

  1. En el panel Operaciones, seleccione Buscar y reemplazar y, luego, seleccione Quitar valores que faltan.

  2. Seleccione la columna Precio.

    Captura de pantalla de cómo quitar filas con valores que faltan en las columnas de destino en Data Wrangler

    Las filas marcadas para su eliminación se resaltan en rojo en la cuadrícula y se agregan al panel Pasos de limpieza. Esta indicación visual no solo agiliza el proceso, sino que también permite ajustes si es necesario.

  3. Seleccione Aplicar. Los cambios están en vigor y la cuadrícula aplica el paso.

Atribución de valores que faltan

Cuando en un conjunto de datos faltan datos, puede usar varios métodos de imputación para rellenar esos espacios vacíos. Cada método tiene sus propias ventajas y es adecuado para diferentes tipos de datos y situaciones.

Conocer estos métodos puede ayudarle a elegir la estrategia más adecuada para gestionar la falta de datos en un contexto específico.

Método Descripción
Promedio Reemplaza los valores que faltan por el valor medio (promedio) de esa variable. Es adecuado para los datos continuos sin valores atípicos.
Valor medio Reemplaza los valores que faltan por la mediana de esa variable. Es más sólido para valores atípicos que el promedio.
Modo Reemplaza los valores que faltan por el valor de modo (más frecuente) de esa variable. Es adecuado para los datos categóricos.
Propagar hacia delante Rellena los valores que faltan con el valor válido anterior del conjunto de datos. También se denomina Relleno hacia delante.
Propagar hacia atrás Rellena los valores que faltan con el siguiente valor válido del conjunto de datos. También se denomina Relleno hacia atrás.
Valor personalizado Reemplaza los valores que faltan por un valor constante definido por el usuario. Puede ser cualquier valor que tenga sentido en el contexto de los datos.

En los pasos siguientes se muestra cómo rellenar o imputar los valores que faltan en las columnas de destino mediante la mediana, por ejemplo.

  1. En el panel Operaciones, seleccione Buscar y reemplazar y, luego, seleccione Rellenar valores que faltan.

  2. Seleccione la columna YearBuilt y, luego, seleccione el método de relleno Mediana.

    Captura de pantalla de cómo imputar los valores que faltan en las columnas de destino mediante la mediana en Data Wrangler

    Las filas marcadas para su eliminación se resaltan en color rojo en la cuadrícula y se agregan al panel Pasos de limpieza. Esta indicación visual facilita las modificaciones en tiempo real cuando sea necesario.

  3. Seleccione Aplicar.

    Los cambios se ven inmediatamente en la cuadrícula de visualización de Data Wrangler, lo que proporciona una vista en tiempo real de cómo afecta la operación al conjunto de datos.

Como alternativa, puede usar el operador Operación personalizada para crear su propio código de imputación.

Para obtener más información sobre la falta de datos, consulte Explorar datos sobre la ciencia de datos con cuadernos en Microsoft Fabric.