Valores del clúster

Artículo
06/06/2024

Los valores del clúster crean automáticamente grupos con valores similares mediante un algoritmo de coincidencia aproximada y, a continuación, asignan el valor de cada columna al grupo que mejor coincide. Esta transformación resulta útil cuando trabaja con datos que tienen muchas variaciones diferentes del mismo valor y tiene que combinar valores en grupos consistentes.

Considere una tabla de muestra con una columna de identificación que contiene un conjunto de identificación y una columna de Persona que contiene un conjunto de versiones escritas y en mayúscula de los nombres Miguel, Mike, William y Bill.

Captura de pantalla de la tabla con nueve filas de entradas que contienen varias ortografías y uso de mayúsculas y minúsculas del nombre Miguel y William.

En este ejemplo, el resultado que está buscando es una tabla con una nueva columna que muestra los grupos correctos de valores de la columna de Persona y no todas las diferentes variaciones de las mismas palabras.

Captura de pantalla de los valores agrupados en clústeres como una nueva columna denominada Clúster en la tabla inicial.

Nota:

La función de Valores del clúster solo está disponible para Power Query Online.

Crear una columna de clúster

Para agrupar valores, primero seleccione la columna de Persona, vaya a la columna Añadir en la cinta de opciones y, a continuación, seleccione la pestaña de la opción de Valores de clúster.

En el cuadro de diálogo de los Valores de clúster, confirme la columna desde la que desea crear los clústeres e ingrese el nuevo nombre de la columna. Para este caso, asígnele un nombre a esta nueva columna Clúster.

Captura de pantalla de la ventana Valores de clúster con la columna Persona seleccionada y la columna Nuevo denominada Clúster.

El resultado de esta operación se muestra en la siguiente imagen.

Captura de pantalla de los valores agrupados en clústeres como una nueva columna denominada Clúster en la tabla inicial.

Nota:

Para cada clúster de valores, Power Query selecciona la instancia más frecuente de la columna seleccionada como instancia "canónica". Si se producen varias instancias con la misma frecuencia, Power Query seleccione la primera.

Uso de las opciones del clúster difuso

Las siguientes opciones están disponibles para agrupar los valores en una nueva columna:

Umbral de similitud (opcional): Esta opción indica qué tan similares deben ser dos valores para agruparse. El valor mínimo de cero (0) hace que todos los valores se agrupen. La configuración máxima de 1 solo permite agrupar valores que coincidan exactamente. El valor predeterminado es 0,8.
Ignorar mayúsculas y minúsculas: al comparar cadenas de texto, se ignoran las mayúsculas y minúsculas. Esta opción está habilitada de forma predeterminada.
Agrupar combinando partes del texto: El algoritmo intenta combinar partes del texto (como combinar Micro y soft en Microsoft) para agrupar valores.
Mostrar puntuaciones de similitud: Muestra puntuaciones de similitud entre los valores de entrada y los valores representativos calculados después de la agrupación difusa.
Tabla de transformación (opcional): Puede seleccionar una tabla de transformación que asigne valores (como asignar MSFT a Microsoft) para agruparlos.

Para este ejemplo, una nueva tabla de transformación con el nombre Mi tabla de transformación se utiliza para demostrar cómo se pueden mapear los valores. Esta tabla de transformación tiene dos columnas:

Desde: La cadena de texto que debe buscar en la tabla.
Para: La cadena de texto que se utilizará para reemplazar la cadena de texto en la columna Desde.

Captura de pantalla de la tabla en la que se muestran valores De de mike y William y los valores A de Miguel y Bill.

Importante

Es importante que la tabla de transformación tenga las mismas columnas y nombres de la columna que se muestran en la imagen anterior (deben llamarse "Desde" y Para"), de lo contrario, Power Query no reconocerá esta tabla como una tabla de transformación y no se realizará ninguna transformación.

Con la consulta creada anteriormente, haga doble clic en el paso de Valores agrupados, luego en el cuadro de diálogo de los Valores del clúster, expandir Opciones del clúster difuso. Bajo Opciones de clúster difuso, habilite la opción de Mostrar puntuaciones de similitud. Para la Tabla de transformación (opcional), seleccione la consulta que tiene la tabla de transformación.

Captura de pantalla de las opciones de clúster aproximadas con el menú desplegable de la tabla de transformación establecida en la tabla de transformación de ejemplo.

Después de seleccionar la tabla de transformación y habilitar la opción de Mostrar puntuaciones de similitud, seleccionar OK. El resultado de esa operación le da una tabla que contiene las mismas columnas de identificación y de Persona que en la tabla original, pero también incluye dos columnas nuevas llamadas Clúster y Person_Cluster_Similarity. La columna del Clúster contiene las versiones correctamente escritas y en mayúscula de los nombres Miguel para las versiones de Miguel y Mike, y William para las versiones de Bill, Billy y William. La columna de Person_cluster_similarity contiene las puntuaciones de similitud para cada uno de los nombres.

Captura de pantalla de la tabla que contiene las nuevas columnas Clúster y Person_Cluster_Similarity.

Prescripciones de tabla de transformación

Es posible que observe que la tabla de transformación de la sección anterior parecía indicar que las instancias de Mike se cambiaron a Miguel y las instancias de William se cambiaron a Bill. Sin embargo, en la tabla resultante, las instancias de Bill y "billy" se cambiaron a William. En la tabla de transformación, en lugar de ser una ruta de acceso directa de De a A, la tabla de transformación es simétrica durante la agrupación en clústeres, lo que significa que "mike" es equivalente a "Miguel" y viceversa. El resultado de los equivalentes proporcionados en la tabla de transformación depende de las reglas siguientes:

Si hay una mayoría de valores idénticos, estos valores tienen prioridad sobre los valores no idénticos.
Si no hay mayoría de valores, el valor que aparece primero tiene prioridad.

Por ejemplo, en la tabla original usada en este artículo, las versiones de Miguel (tanto "miguel" como Miguel) en la columna Persona constituyen la mayoría de las instancias del nombre Miguel y Mike. Además, el nombre Miguel con mayúsculas iniciales constituye la mayoría del nombre Miguel. Por lo tanto, la asociación de Miguel y sus derivados y Mike y sus derivados en la tabla de transformación da como resultado que se use el nombre Miguel en la columna Clúster.

Sin embargo, para los nombres William, Bill y "billy", no hay mayoría de valores, ya que los tres son únicos. Como William aparece primero, William se usa en la columna Clúster. Si "billy" hubiera aparecido primero en la tabla, se usaría "billy" en la columna Clúster. Además, dado que no hay mayoría de valores, se usa el caso usado por los nombres individuales. Es decir, si William va primero, se usa William con una mayúscula "W" como valor de resultado; si "billy" va primero, se usa "billy" con una "b" minúscula.

Compartir a través de

Valores del clúster

Crear una columna de clúster

Uso de las opciones del clúster difuso

Prescripciones de tabla de transformación

Comentarios

Recursos adicionales

Compartir a través de

Valores del clúster

Crear una columna de clúster

Uso de las opciones del clúster difuso

Prescripciones de tabla de transformación

Contenido relacionado

Comentarios

Recursos adicionales