Resumen de datos
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
Genera un informe de estadísticas descriptivas básicas de las columnas de un conjunto de datos
Categoría: Funciones estadísticas
Nota:
Solo se aplica a: Machine Learning Studio (clásico)
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
Información general sobre el módulo
En este artículo se describe cómo usar el módulo Resumir datos en Machine Learning Studio (clásico) para crear un conjunto de medidas estadísticas estándar que describen cada columna de la tabla de entrada.
Estas estadísticas de resumen son útiles cuando se quieren comprender las características del conjunto de datos completo. Por ejemplo, podría necesitar saber:
- ¿Cuántos valores faltan en cada columna?
- ¿Cuántos valores únicos hay en una columna de características?
- ¿Cuál es la media y la desviación típica de cada columna?
El módulo calcula las puntuaciones importantes de cada columna y devuelve una fila de estadísticas resumidas para cada variable (columna de datos) que se proporciona como entrada.
Sugerencia
Es posible que ya sepa que puede obtener una breve lista de estadísticas mediante la opción Visualizar en Studio (clásico). Sin embargo, esta visualización se crea en función de un número superior de filas. Por el contrario, el módulo Resumir datos calcula sus estadísticas en todas las filas de datos.
Cómo usar Resumir datos
Agregue el módulo Resumir datos al experimento. Puede encontrar este módulo en la categoría Funciones estadísticas de Studio (clásico).
Seleccione el conjunto de datos para el que desea generar un informe.
Si desea notificar solo algunas columnas, use el módulo Select Columns in Dataset (Seleccionar columnas del conjunto de datos) para proyectar un subconjunto de columnas con el que trabajar.
No hay ningún otro parámetro obligatorio. De forma predeterminada, el módulo analiza todas las columnas que se proporcionan como entrada y, en función del tipo de valores de las columnas, genera un conjunto de estadísticas pertinente, tal como se describe en la sección Resultados.
Ejecute el experimento o haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.
Results
El informe del módulo puede incluir las siguientes estadísticas.
Las estadísticas exactas que se generan dependen del tipo de datos de columna. Consulte la sección Notas técnicas para obtener más información.
Se supone que las instancias pertenecen a una muestra representativa de una población. Si necesita calcular las estadísticas de una población, use las opciones del módulo Compute Elementary Statistics (Estadísticas elementales de proceso), que puede calcular las estadísticas de muestreo o de población.
Nombre de la columna | Descripción |
---|---|
Característica | Nombre de la columna |
Recuento | Recuento de filas |
Número de valores únicos | Recuento de valores únicos en la columna |
Missing Value Count (Número de valores ausentes) | Recuento de valores únicos en la columna |
Mín. | Valor más bajo de la columna |
Máx. | Valor más alto de la columna |
Promedio | Promedio de todos los valores de la columna |
Mean Deviation (Desviación media) | Desviación media de los valores de la columna |
1st Quartile (1er cuartil) | Valor en el primer cuartil |
Valor medio | Valor de la mediana de la columna |
3rd Quartile (3er cuartil) | Valor en el tercer cuartil |
Modo | Modo de los valores de la columna |
Range | Entero que representa el número de valores entre los valores máximo y mínimo |
Sample Variance (Varianza de la muestra) | Varianza de la columna; consulte la nota |
Sample Standard Deviation (Desviación típica de la muestra) | Desviación típica de la columna; consulte la nota |
Sample Skewness (Sesgo de la muestra) | Sesgo de la columna; consulte la nota |
Sample Kurtosis (Curtosis de la muestra) | Curtosis de la columna; consulte la nota |
P0.5 | Percentil 0,5 % |
P1 | Percentil 1 % |
P5 | Percentil 5 % |
P95 | Percentil 95 % |
P99.5 | Percentil 99,5 % |
Sugerencia
Generar el informe de estadísticas como un conjunto de datos tabular, para que pueda usar los datos en las herramientas de informes de BI o usar los valores como entrada para otra operación en el experimento.
Ejemplos
Para obtener ejemplos de cómo usar el módulo Resumir datos en un experimento, vea el Azure AI Gallery:
Descargar conjunto de datos de UCI: lee un conjunto de datos en formato CSV mediante su dirección URL en el repositorio Machine Learning de UCI y genera algunas estadísticas básicas sobre el conjunto de datos.
Procesamiento y análisis de conjuntos de datos: carga el conjunto de datos en el área de trabajo, cambia los nombres de columna y agrega metadatos.
Predicción del rendimiento de los alumnos: lee los datos almacenados en formato TSV desde Azure Blob Storage.
Notas técnicas
Para las columnas numéricas y booleanas, puede generar la media, la mediana, el modo y la desviación estándar.
Para las columnas no numéricas, solo se calculan los valores para Recuento, Recuento de valores únicos y Recuento de valores que faltan. En el caso de otras estadísticas, se devuelve un valor nulo.
Las columnas que contienen valores booleanos se procesan mediante las siguientes reglas:
Al calcular Min, se aplica un operador lógico AND.
Al calcular max, se aplica un OPERADOR lógico
Al calcular Range, el módulo comprueba primero si el número de valores únicos de la columna es igual a 2.
Cuando se calcula cualquier estadística que requiere cálculos de punto flotante, los valores True se tratan como 1,0 y los valores False se tratan como 0,0.
Entradas esperadas
Nombre | Tipo | Descripción |
---|---|---|
Dataset | Tabla de datos | Conjunto de datos de entrada |
Output
Nombre | Tipo | Descripción |
---|---|---|
Conjunto de datos de resultados | Tabla de datos | Un perfil del conjunto de datos de entrada que contiene estadísticas descriptivas |
Excepciones
Excepción | Descripción |
---|---|
Error 0003 | Se produce una excepción si una o varias de las entradas son nulas o están vacías. |
Error 0020 | Se produce una excepción si el número de columnas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño. |
Error 0021 | Se produce una excepción si el número de filas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño. |
Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.
Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.