Comprobación de los datos que faltan en los cuadernos
Los datos que faltan hacen referencia a la falta de valores en determinadas variables de un conjunto de datos.
Identificar y controlar los datos que faltan es un aspecto fundamental de la fase de exploración y preprocesamiento de datos en un proyecto de aprendizaje automático; la forma en que los controla puede afectar significativamente al rendimiento del modelo.
Los pasos clave para controlar los datos que faltan incluyen evaluar la cantidad de datos que faltan, identificar la naturaleza de los datos que faltan y elegir el mejor método para controlar los valores de los datos que faltan.
Identificación de los datos que faltan
Para identificar si faltan datos en el conjunto de datos, puede usar las funciones isnull()
o isna()
desde Pandas.
import pandas as pd
import numpy as np
# Create a sample DataFrame with some missing values
data = {
'A': [1, 2, np.nan],
'B': [4, np.nan, np.nan],
'C': [7, 8, 9]
}
df = pd.DataFrame(data)
# Check for missing data
print(df.isnull())
Resultados:
A B C
0 False False False
1 False True False
2 True True False
Esto genera un DataFrame del mismo tamaño que df, pero con True en las posiciones donde faltan valores (NaN) y False en las demás.
Para obtener el número total de valores que faltan en la trama de datos, puede usar df.isnull().sum()
. Esto devuelve el número de valores que faltan para cada columna.
df.isnull().sum()
Resultados:
A 1
B 2
C 0
dtype: int64
Evaluación de la naturaleza de los valores que faltan
En un proyecto de ciencia de datos, los valores que faltan pueden producirse por diversos motivos y comprender su naturaleza es fundamental para controlarlos adecuadamente.
Estos son algunos tipos de valores que faltan:
Faltantes completamente aleatorios (MCAR): La falta de datos no está relacionada con los valores de ninguna otra variable y es aleatoria. Este es el escenario ideal, pero a menudo no es el caso en los datos reales.
Faltantes aleatorios (MAR): La falta de datos está relacionada con algunos otros valores de variables, pero no con los datos que faltan. Por ejemplo, si es más probable que las mujeres revelen su número de pasos diarios que los hombres, los datos de los pasos diarios son MAR.
Faltantes no aleatorios (MNAR): La falta de datos está relacionada con los valores de los datos que faltan. Por ejemplo, es menos probable que las personas con los salarios más altos revelen sus ingresos. La eliminación de estos registros podría introducir sesgos en el modelo, lo que impide que refleje con precisión la información completa contenida en los datos.
Comprender la naturaleza de los valores que faltan en el conjunto de datos puede guiarle sobre cómo controlarlos. En el caso de MCAR y MAR, puede optar por métodos de eliminación o imputación. En el caso de MNAR, estos métodos podrían introducir sesgos, por lo que podría ser mejor recopilar más datos o usar métodos basados en modelos que puedan controlar los valores que faltan.
Decisión sobre cómo controlar los datos que faltan
El enfoque para controlar los datos que faltan puede afectar significativamente a los resultados del análisis y al rendimiento del modelo. Estas son algunas estrategias que podría considerar.
Ignorar: Si solo falta una pequeña cantidad de datos, es posible que no tenga un impacto significativo en el rendimiento del modelo.
Eliminar: Si una fila o columna determinada tiene muchos valores que faltan, puede ser mejor eliminarla por completo.
Imputar: Rellene los valores que faltan con un valor o una estimación especificados (como media, mediana, modo o usando un algoritmo de aprendizaje automático como K-Nearest Neighbors (KNN)).
Úselo como una nueva característica: A veces, el hecho de que falte un valor se puede usar como información. Por ejemplo, en una encuesta de productos, las preguntas sin respuesta sobre cómo recomendar el producto podrían indicar la frustración del cliente. En este caso, la no respuesta puede ser una nueva característica que indica una probabilidad de frustración del cliente.
No hay ninguna solución de un solo tamaño para controlar los datos que faltan. El mejor enfoque depende de los detalles del conjunto de datos y de la pregunta que intenta responder.