Agrupar valores de categorías
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
Agrupa datos de varias categorías en una nueva categoría
Categoría: Transformación y manipulación de datos
Nota:
Solo se aplica a: Machine Learning Studio (clásico)
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
Información general sobre el módulo
En este artículo se describe cómo usar el módulo Group Categorical Values en Machine Learning Studio (clásico) para crear una tabla de búsqueda local.
El uso típico para agrupar valores categóricos es combinar varios valores de cadena en un único nivel nuevo. Por ejemplo, puede asignar códigos postales individuales de una región a un único código regional o agrupar varios productos en una categoría.
Para usar este módulo, escriba los valores de búsqueda que desea usar y asigne los valores existentes a los valores de reemplazo. Solo puede crear agrupaciones para columnas de categorías, no para columnas de tipo numérico o columnas designadas como etiquetas o características.
Los valores de columna que no se asignan explícitamente a un nuevo nivel se asignan a un nivel predeterminado. Por ejemplo, si no asignara todos los códigos postales individuales, se agruparían en un nivel para los valores no asignados, a los que podría asignar el nombre Desconocido.
Nota:
Se puede crear un máximo de 20 nuevos niveles, incluido el nivel predeterminado. Si necesita más valores o necesita definir asignaciones dinámicamente, se recomienda usar un script de R personalizado en el módulo Ejecutar script R . O bien, use SQL instrucciones en el módulo Aplicar SQL transformación.
Uso de valores categóricos de grupo
Se recomienda preparar con antelación la lista de valores existentes y las nuevas categorías. Para cada categoría, debe preparar un nuevo nombre de categoría y una lista separada por comas de valores que se incluirán en la categoría.
Agregue el módulo Group Categorical Values (Valores de categoría de grupo) al experimento. Puede encontrar el módulo en Transformación de datos, Manipulación.
Conectar un conjunto de datos que tenga los valores que desea transformar.
En el panel Propiedades de Valores categóricos de grupo, use el selector de columnas para elegir la columna que tenga los niveles que desea reducir.
Se recomienda hacer clic en BEGIN WITH y NO COLUMNS para iniciar y, a continuación, agregar columnas por nombre. De lo contrario, se podrían agregar demasiadas columnas como candidatos, lo que podría dar lugar a un error.
La columna debe ser una columna de categorías. Si no es así, agregue Editar metadatos ascendentemente y cambie el tipo de columna.
Asegúrese de quitar de la entrada las columnas a las que no se debe aplicar el reemplazo de cadenas.
En Modo de salida, indique si desea generar solo los nuevos niveles o anexar los cambios para ver la columna original, con los reemplazos en paralelo.
El valor predeterminado, ResultOnly, muestra solo los nuevos valores. La opción Inplace reemplaza los valores de columna existentes por los nuevos niveles.
En Nombre de nivel predeterminado, escriba un valor de cadena que se usará como reemplazo de todos los valores que no están asignados explícitamente. Puede usar algo como "Desconocido" o "Predeterminado".
Nota:
Este valor de nivel predeterminado se aplica a todos los valores que no se pueden asignar. Si incluye accidentalmente columnas que no piensa asignar, el valor se aplicaría a todos los valores de las columnas. Por lo tanto, compruebe que la selección de columna sea precisa antes del procesamiento.
En Nuevo número de niveles, escriba un número que indique el número total de nuevas categorías (niveles), incluido el nivel predeterminado para los valores no seleccionados.
En Nombre del nuevo nivel 1, proporcione el nuevo nombre de grupo para la primera categoría.
En el cuadro de texto siguiente, lista separada por comas de niveles antiguos para asignar al nuevo nivel 1, escriba o pegue una lista exhaustiva de todos los valores que se asignarán al nuevo nivel. No se permiten caracteres comodín ni expresiones regulares.
Continúe con el tipo de nuevos nombres de nivel y escriba o pegue los valores que se deben asignar al nuevo nivel.
Se recomienda guardar la lista de valores en un archivo independiente mientras está trabajando. Si cambia el número de niveles, se quitan las cadenas que ha especificado previamente y debe empezar de nuevo.
Sin embargo, si está editando un módulo que se guardó anteriormente, puede revertir a la configuración original.
Ejecute el experimento.
Results
Para ver los resultados, haga clic con el botón derecho en el módulo Group Categorical Values (Valores categóricos de grupo), seleccione Results dataset (Conjunto de datos de resultados) y haga clic en Visualize (Visualizar).
Ejemplos
Para obtener ejemplos de aprendizaje automático en acción, consulte el Azure AI Gallery.
También puede probar este módulo por sí mismo mediante un pequeño conjunto de datos con algunas variables de cadena que se pueden agrupar fácilmente, como el conjunto de datos automobile price que se proporciona en Machine Learning Studio (clásico).
Supongamos que desea agrupar automóviles en el conjunto de datos de precios de automóviles por tamaño del motor, con el número de cilindros. En lugar de muchos tamaños de motor diferentes, creará los nuevos niveles, "grande", "pequeño" y "otro", como se muestra a continuación:
- Motores grandes: seis cilindros o más grandes
- Motores pequeños: dos o cuatro cilindros
- Otro: cualquier otra cosa
- Agregue el módulo Seleccionar columnas del conjunto de datos y seleccione solo la
num-of-cylinders
columna. - Agregue el módulo Editar metadatos y cambie la columna
num-of-cylinders
a Categoría. - Agregue el módulo Group Categorical Values (Valores categóricos de grupo) y conecte el conjunto de datos modificado.
- En Nombre de nivel predeterminado, escriba
other
. No es necesario proporcionar valores para este nivel. - En Nombre del nuevo nivel 1, escriba
big
. En la lista de niveles antiguos que se asignarán al nivel 1, pegue .six, eight, twelve
- En Nombre del nuevo nivel 2, escriba
small
. Para los valores asignados, pegue .two, four
- Ejecute el experimento.
- Al visualizar los resultados, se da cuenta de que el conjunto de datos original tenía algunos tamaños de motor impares que no tenía en cuenta, como
five
ythree
. Todos estos elementos se asignan alother
nivel .
Notas técnicas
Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.
Es posible que encuentre el mensaje de error "Column with name "columnname" is not in an allowed category" (La columna con el nombre "<columnname>" no está en una categoría permitida).
Este mensaje indica que la columna seleccionada no es una columna de categorías. Puede marcar la columna como mediante
Categorical
Editar metadatos o seleccionar otra columna que contenga los valores de categoría adecuados.
Entradas esperadas
Nombre | Tipo | Descripción |
---|---|---|
Dataset | Tabla de datos | Datos para agrupar |
Parámetros del módulo
Nombre | Intervalo | Tipo | Valor predeterminado | Descripción |
---|---|---|---|---|
Columnas seleccionadas | cualquiera | ColumnSelection | CategoricalAll | Seleccione las columnas que se agruparán. |
Modo de salida | cualquiera | OutputTo | ResultOnly | Especifique cómo se deben devolver las etiquetas de categorías. |
Nombre del nivel predeterminado | cualquiera | String | Indique el nivel predeterminado que se usará si no coincide ninguna asignación. | |
Nuevo número de niveles | Lista | Número de grupos | Especificar el número de niveles después de que los valores se hayan agrupado, incluido el nivel predeterminado. |
Output
Nombre | Tipo | Descripción |
---|---|---|
Conjunto de datos de resultados | Tabla de datos | Datos agrupados |