Compartir a través de


Combinación aproximada

La combinación aproximada es una función inteligente de preparación de datos que puede utilizar para aplicar algoritmos de coincidencia aproximada al comparar columnas. Estos algoritmos intentan buscar coincidencias entre las tablas que se combinan.

Puede habilitar la coincidencia aproximada en la parte inferior del cuadro de diálogo Combinar seleccionando el botón Usar coincidencia aproximada para realizar la combinación. Más información: Información general de las operaciones de combinación

Nota:

La coincidencia aproximada solo se admite en las operaciones de combinación a través de columnas de texto. Power Query usa el algoritmo de similitud Jaccard para medir la similitud entre pares de instancias.

Escenario de ejemplo

Un caso de uso común para la coincidencia aproximada es con campos de texto de formato libre, como en una encuesta. Para este artículo, la tabla de ejemplo se tomó directamente de una encuesta en línea enviada a un grupo con una sola pregunta: ¿Cuál es su fruta favorita?

Los resultados de esa encuesta se muestran en la siguiente imagen.

Encuesta de muestra con entradas sin procesar.

Captura de pantalla de la tabla de salida de la encuesta de ejemplo que contiene el gráfico de distribución de columnas que muestra nueve respuestas distintas con todas las respuestas únicas, y las respuestas a la encuesta con todos los errores tipográficos, plurales o singulares, y problemas de mayúsculas y minúsculas.

Los nueve registros reflejan los envíos de la encuesta. El problema con los envíos de encuestas es que algunos tienen errores tipográficos, otros están en plural, otros en singular, otros en mayúsculas y otros en minúsculas.

Para ayudar a estandarizar estos valores, en este ejemplo tiene una tabla de referencia Frutas.

Tabla de referencia de frutas.

Captura de pantalla de la tabla de referencia Frutas que contiene un gráfico de distribución de columnas que muestra cuatro frutas distintas con todas las frutas únicas y la lista de frutas: manzana, piña, sandía y plátano.

Nota:

Por motivos de simplicidad, esta tabla de referencia Frutas solo incluye el nombre de las frutas que serán necesarias para este escenario. La tabla de referencia puede tener tantas filas como necesite.

El objetivo es crear una tabla como la siguiente, donde ha estandarizado todos estos valores para que pueda realizar más análisis.

Tabla de salida de encuesta de muestra.

Captura de pantalla de la tabla de salida de encuesta de ejemplo con la columna Pregunta que contiene el gráfico de distribución de columnas. El gráfico muestra nueve respuestas distintas con todas las respuestas únicas. Las respuestas a la encuesta contienen todos los errores tipográficos, plurales o singulares y problemas de mayúsculas y minúsculas. La tabla de salida también contiene la columna Fruta. Esta columna contiene el gráfico de distribución de columnas que muestra cuatro respuestas distintas con una respuesta única. También se enumeran todas las frutas correctamente escritas, singulares y mayúsculas y minúsculas adecuadas.

Operación de combinación aproximada

Para realizar la combinación aproximada, empiece por realizar una combinación. En este caso, usará una combinación externa izquierda, donde la tabla izquierda es la de la encuesta y la tabla derecha es la tabla de referencia Frutas. En la parte inferior del cuadro de diálogo, active la casilla Usar coincidencia aproximada para realizar la combinación.

Captura de pantalla del cuadro de diálogo Combinar que muestra cómo usar la coincidencia aproximada para realizar la opción de combinación.

Después de seleccionar Aceptar, puede ver una nueva columna en la tabla debido a esta operación de combinación. Si la expande, hay una fila que no contiene ningún valor. Eso es exactamente lo que el mensaje del cuadro de diálogo de la imagen anterior indicó en "La selección coincide con 8 de 9 filas de la primera tabla.".

La coincidencia aproximada da como resultado la columna Fruta.

Captura de pantalla de la columna de fruta agregada a la tabla de la encuesta. Todas las filas de la columna Pregunta están expandidas, excepto la fila 9, que no se pudo expandir y la columna Fruta, que contiene null.

Opciones de coincidencia aproximada

Puede modificar las Opciones de coincidencia aproximada para ajustar cómo se debe realizar la coincidencia aproximada. En primer lugar, seleccione el comando Combinar consultas y, después, en el cuadro de diálogo Combinar, expanda Opciones de coincidencia aproximada.

Captura de pantalla del cuadro de diálogo Combinar con las opciones de coincidencia aproximada que se muestran.

Las opciones disponibles son:

  • Umbral de similitud (opcional): un valor entre 0,00 y 1,00 que permite hacer coincidir los registros por encima de una puntuación de similitud determinada. Un umbral de 1,00 es lo mismo que especificar un criterio de coincidencia exacta. Por ejemplo, Uvas coincide con Uas (falta la letra v) solo si el umbral se establece en menos de 0,90. De forma predeterminada, este valor se establece en 0.80.
  • Omitir mayúsculas y minúsculas: permite cotejar registros sin importar las mayúsculas y minúsculas del texto.
  • Coincidencia mediante la combinación de partes de texto: permite combinar partes de texto para buscar coincidencias. Por ejemplo, Micro soft se coteja con Microsoft si esta opción está habilitada.
  • Mostrar puntuaciones de similitud: muestra puntuaciones de similitud entre la entrada y los valores coincidentes después de la coincidencia aproximada.
  • Número de coincidencias (opcional): especifica el número máximo de filas coincidentes que se pueden devolver para cada fila de entrada.
  • Tabla de transformación (opcional): permite cotejar registros basados en asignaciones de valores personalizadas. Por ejemplo, Uvas se coteja con Pasas si se ha indicado una tabla de transformación donde la columna De contiene Uvas y la columna A contiene Pasas.

Tabla de transformación

Para el ejemplo de este artículo, puede usar una tabla de transformación para asignar el valor que tiene un par que falta. Ese valor es mnza, que debe asignarse a Manzana. La tabla de transformación tiene dos columnas:

  • De contiene los valores que se van a buscar.
  • A contiene los valores que se usan para reemplazar los valores encontrados mediante la columna De.

Para este artículo, la tabla de transformación se parece a la siguiente:

De En
mnza Manzana

Puede volver al cuadro de diálogo Combinar y, en Opciones de coincidencia aproximadas en Número de coincidencias, introduzca 1. Habilite la opción Mostrar puntuaciones de similitud y, a continuación, en Tabla de transformación, seleccione Tabla de transformación en el menú desplegable.

Captura de pantalla del cuadro de diálogo Combinar con el número de coincidencias establecidas en 1 y la tabla de transformación establecida en la tabla Transformar.

Después de seleccionar Aceptar, puede ir al paso de combinación. Al expandir la columna con valores de tabla, además del campo Fruta, también verá el campo Puntuación de similitud. Seleccione ambos campos y expándalos sin agregar un prefijo.

Captura de pantalla del cuadro de diálogo de expansión de tabla para la columna Frutas que contiene los campos Fruta y Puntuación de similitud seleccionados.

Después de expandir estos dos campos, se agregan a la tabla. Anote los valores que obtiene para las puntuaciones de similitud de cada valor. Estas puntuaciones pueden ayudarle con transformaciones adicionales si es necesario para determinar si debe reducir o aumentar el umbral de similitud.

Captura de pantalla de la tabla resultante tras el proceso de combinación aproximada, que muestra los nuevos campos Fruta y Puntuación de similitud para cada valor.

En este ejemplo, la Puntuación de similitud solo sirve como información adicional y no es necesaria en la salida de esta consulta, por lo que puede quitarla. Observe cómo el ejemplo comenzó con nueve valores distintos, pero después de la combinación aproximada, solo hay cuatro valores distintos.

Tabla de salida de encuesta de combinación parcial.

Captura de pantalla de la tabla de salida de la encuesta con combinación aproximada con la columna Pregunta que contiene el gráfico de distribución de columnas que muestra nueve respuestas distintas con todas las respuestas únicas, y las respuestas a la encuesta con todos los errores tipográficos, plurales o singulares, y problemas de mayúsculas y minúsculas. También contiene la columna Fruta con el gráfico de distribución de columnas que muestra cuatro respuestas distintas con una respuesta única y enumera todas las frutas escritas correctamente, en singular y con las mayúsculas y minúsculas adecuadas.

Para obtener más información sobre cómo funcionan las tablas de transformación, vaya a Prescripciones de tabla de transformación.