Compartir a través de


Agrupar valores de categorías

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Agrupa datos de varias categorías en una nueva categoría

Categoría: Transformación y manipulación de datos

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Group Categorical Values en Machine Learning Studio (clásico) para crear una tabla de búsqueda local.

El uso típico para agrupar valores categóricos es combinar varios valores de cadena en un único nivel nuevo. Por ejemplo, puede asignar códigos postales individuales de una región a un único código regional o agrupar varios productos en una categoría.

Para usar este módulo, escriba los valores de búsqueda que desea usar y asigne los valores existentes a los valores de reemplazo. Solo puede crear agrupaciones para columnas de categorías, no para columnas de tipo numérico o columnas designadas como etiquetas o características.

Los valores de columna que no se asignan explícitamente a un nuevo nivel se asignan a un nivel predeterminado. Por ejemplo, si no asignara todos los códigos postales individuales, se agruparían en un nivel para los valores no asignados, a los que podría asignar el nombre Desconocido.

Nota:

Se puede crear un máximo de 20 nuevos niveles, incluido el nivel predeterminado. Si necesita más valores o necesita definir asignaciones dinámicamente, se recomienda usar un script de R personalizado en el módulo Ejecutar script R . O bien, use SQL instrucciones en el módulo Aplicar SQL transformación.

Uso de valores categóricos de grupo

Se recomienda preparar con antelación la lista de valores existentes y las nuevas categorías. Para cada categoría, debe preparar un nuevo nombre de categoría y una lista separada por comas de valores que se incluirán en la categoría.

  1. Agregue el módulo Group Categorical Values (Valores de categoría de grupo) al experimento. Puede encontrar el módulo en Transformación de datos, Manipulación.

  2. Conectar un conjunto de datos que tenga los valores que desea transformar.

  3. En el panel Propiedades de Valores categóricos de grupo, use el selector de columnas para elegir la columna que tenga los niveles que desea reducir.

    • Se recomienda hacer clic en BEGIN WITH y NO COLUMNS para iniciar y, a continuación, agregar columnas por nombre. De lo contrario, se podrían agregar demasiadas columnas como candidatos, lo que podría dar lugar a un error.

    • La columna debe ser una columna de categorías. Si no es así, agregue Editar metadatos ascendentemente y cambie el tipo de columna.

    • Asegúrese de quitar de la entrada las columnas a las que no se debe aplicar el reemplazo de cadenas.

  4. En Modo de salida, indique si desea generar solo los nuevos niveles o anexar los cambios para ver la columna original, con los reemplazos en paralelo.

    El valor predeterminado, ResultOnly, muestra solo los nuevos valores. La opción Inplace reemplaza los valores de columna existentes por los nuevos niveles.

  5. En Nombre de nivel predeterminado, escriba un valor de cadena que se usará como reemplazo de todos los valores que no están asignados explícitamente. Puede usar algo como "Desconocido" o "Predeterminado".

    Nota:

    Este valor de nivel predeterminado se aplica a todos los valores que no se pueden asignar. Si incluye accidentalmente columnas que no piensa asignar, el valor se aplicaría a todos los valores de las columnas. Por lo tanto, compruebe que la selección de columna sea precisa antes del procesamiento.

  6. En Nuevo número de niveles, escriba un número que indique el número total de nuevas categorías (niveles), incluido el nivel predeterminado para los valores no seleccionados.

  7. En Nombre del nuevo nivel 1, proporcione el nuevo nombre de grupo para la primera categoría.

  8. En el cuadro de texto siguiente, lista separada por comas de niveles antiguos para asignar al nuevo nivel 1, escriba o pegue una lista exhaustiva de todos los valores que se asignarán al nuevo nivel. No se permiten caracteres comodín ni expresiones regulares.

  9. Continúe con el tipo de nuevos nombres de nivel y escriba o pegue los valores que se deben asignar al nuevo nivel.

    Se recomienda guardar la lista de valores en un archivo independiente mientras está trabajando. Si cambia el número de niveles, se quitan las cadenas que ha especificado previamente y debe empezar de nuevo.

    Sin embargo, si está editando un módulo que se guardó anteriormente, puede revertir a la configuración original.

  10. Ejecute el experimento.

Results

Para ver los resultados, haga clic con el botón derecho en el módulo Group Categorical Values (Valores categóricos de grupo), seleccione Results dataset (Conjunto de datos de resultados) y haga clic en Visualize (Visualizar).

Ejemplos

Para obtener ejemplos de aprendizaje automático en acción, consulte el Azure AI Gallery.

También puede probar este módulo por sí mismo mediante un pequeño conjunto de datos con algunas variables de cadena que se pueden agrupar fácilmente, como el conjunto de datos automobile price que se proporciona en Machine Learning Studio (clásico).

Supongamos que desea agrupar automóviles en el conjunto de datos de precios de automóviles por tamaño del motor, con el número de cilindros. En lugar de muchos tamaños de motor diferentes, creará los nuevos niveles, "grande", "pequeño" y "otro", como se muestra a continuación:

  • Motores grandes: seis cilindros o más grandes
  • Motores pequeños: dos o cuatro cilindros
  • Otro: cualquier otra cosa
  1. Agregue el módulo Seleccionar columnas del conjunto de datos y seleccione solo la num-of-cylinders columna.
  2. Agregue el módulo Editar metadatos y cambie la columna num-of-cylindersa Categoría.
  3. Agregue el módulo Group Categorical Values (Valores categóricos de grupo) y conecte el conjunto de datos modificado.
  4. En Nombre de nivel predeterminado, escriba other. No es necesario proporcionar valores para este nivel.
  5. En Nombre del nuevo nivel 1, escriba big. En la lista de niveles antiguos que se asignarán al nivel 1, pegue .six, eight, twelve
  6. En Nombre del nuevo nivel 2, escriba small. Para los valores asignados, pegue .two, four
  7. Ejecute el experimento.
  8. Al visualizar los resultados, se da cuenta de que el conjunto de datos original tenía algunos tamaños de motor impares que no tenía en cuenta, como five y three. Todos estos elementos se asignan al other nivel .

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

  • Es posible que encuentre el mensaje de error "Column with name "columnname" is not in an allowed category" (La columna con el nombre "<columnname>" no está en una categoría permitida).

    Este mensaje indica que la columna seleccionada no es una columna de categorías. Puede marcar la columna como mediante CategoricalEditar metadatos o seleccionar otra columna que contenga los valores de categoría adecuados.

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Datos para agrupar

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Columnas seleccionadas cualquiera ColumnSelection CategoricalAll Seleccione las columnas que se agruparán.
Modo de salida cualquiera OutputTo ResultOnly Especifique cómo se deben devolver las etiquetas de categorías.
Nombre del nivel predeterminado cualquiera String Indique el nivel predeterminado que se usará si no coincide ninguna asignación.
Nuevo número de niveles Lista Número de grupos Especificar el número de niveles después de que los valores se hayan agrupado, incluido el nivel predeterminado.

Output

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Datos agrupados

Consulte también

Manipulación
Transformación de datos
Lista de módulos A-Z