Resumen de datos
En este artículo se describe un componente del diseñador de Azure Machine Learning.
Use el componente Resumen de datos para crear un conjunto de medidas estadísticas estándar que describan cada columna de la tabla de entrada.
Las estadísticas resumidas son útiles cuando se desea conocer las características del conjunto de información completo. Por ejemplo, podría necesitar saber:
- ¿Cuántos valores faltan en cada columna?
- ¿Cuántos valores únicos hay en una columna de características?
- ¿Cuál es la media y la desviación típica de cada columna?
El componente calcula las puntuaciones importantes de cada columna y devuelve una fila de estadísticas de resumen de cada variable (columna de datos) que se proporciona como entrada.
Configuración de Summarize Data (Resumen de datos)
Agregue el componente Resumen de datos a la canalización. Puede encontrar este componente en la categoría Funciones estadísticas del diseñador.
Seleccione el conjunto de datos para el que desea generar un informe.
Si quiere un informe solo de algunas columnas, use el componente Seleccionar columnas de conjunto de datos para proyectar un subconjunto de columnas con el que trabajar.
No hay ningún otro parámetro obligatorio. De manera predeterminada, el componente analiza todas las columnas proporcionadas como entrada y, en función del tipo de valores de las columnas, genera un conjunto relevante de estadísticas, como se explica en la sección Resultados.
Envíe la canalización.
Results
El informe del componente puede incluir las siguientes estadísticas.
Nombre de la columna | Descripción |
---|---|
Característica | Nombre de la columna |
Recuento | Recuento de filas |
Número de valores únicos | Recuento de valores únicos en la columna |
Missing Value Count (Número de valores ausentes) | Recuento de valores únicos en la columna |
Mín. | Valor más bajo de la columna |
Máx. | Valor más alto de la columna |
Promedio | Promedio de todos los valores de la columna |
Mean Deviation (Desviación media) | Desviación media de los valores de la columna |
1st Quartile (1er cuartil) | Valor en el primer cuartil |
Valor medio | Valor de la mediana de la columna |
3rd Quartile (3er cuartil) | Valor en el tercer cuartil |
Modo | Modo de los valores de la columna |
Range | Entero que representa el número de valores entre los valores máximo y mínimo |
Sample Variance (Varianza de la muestra) | Varianza de la columna; consulte la nota |
Sample Standard Deviation (Desviación típica de la muestra) | Desviación típica de la columna; consulte la nota |
Sample Skewness (Sesgo de la muestra) | Sesgo de la columna; consulte la nota |
Sample Kurtosis (Curtosis de la muestra) | Curtosis de la columna; consulte la nota |
P0.5 | Percentil 0,5 % |
P1 | Percentil 1 % |
P5 | Percentil 5 % |
P95 | Percentil 95 % |
P99.5 | Percentil 99,5 % |
Notas técnicas
En el caso de las columnas no numéricas, solo se calculan los valores de Recuento, Recuento de valores únicos y Recuento de valores que faltan. En el caso de otras estadísticas, se devuelve un valor nulo.
Las columnas que contienen valores booleanos se procesan mediante las siguientes reglas:
Al calcular el Mín., se aplica un operador lógico AND.
Al calcular el Máx., se aplica un operador lógico OR.
Al calcular Intervalo, el componente comprueba primero si el número de valores únicos de la columna es igual a 2.
Cuando se calcula cualquier estadística que requiere cálculos de punto flotante, los valores True se tratan como 1,0 y los valores False se tratan como 0,0.
Pasos siguientes
Vea el conjunto de componentes disponibles para Azure Machine Learning.