Combinación aproximada
La combinación aproximada es una función inteligente de preparación de datos que puede utilizar para aplicar algoritmos de coincidencia aproximada al comparar columnas. Estos algoritmos intentan buscar coincidencias entre las tablas que se combinan.
Puede habilitar la coincidencia aproximada en la parte inferior del cuadro de diálogo Combinar seleccionando el botón Usar coincidencia aproximada para realizar la combinación. Más información: Información general de las operaciones de combinación
Nota:
La coincidencia aproximada solo se admite en las operaciones de combinación a través de columnas de texto. Power Query usa el algoritmo de similitud Jaccard para medir la similitud entre pares de instancias.
Escenario de ejemplo
Un caso de uso común para la coincidencia aproximada es con campos de texto de formato libre, como en una encuesta. Para este artículo, la tabla de ejemplo se tomó directamente de una encuesta en línea enviada a un grupo con una sola pregunta: ¿Cuál es su fruta favorita?
Los resultados de esa encuesta se muestran en la siguiente imagen.
Captura de pantalla de la tabla de salida de la encuesta de ejemplo que contiene el gráfico de distribución de columnas que muestra nueve respuestas distintas con todas las respuestas únicas, y las respuestas a la encuesta con todos los errores tipográficos, plurales o singulares, y problemas de mayúsculas y minúsculas.
Los nueve registros reflejan los envíos de la encuesta. El problema con los envíos de encuestas es que algunos tienen errores tipográficos, otros están en plural, otros en singular, otros en mayúsculas y otros en minúsculas.
Para ayudar a estandarizar estos valores, en este ejemplo tiene una tabla de referencia Frutas.
Captura de pantalla de la tabla de referencia Frutas que contiene un gráfico de distribución de columnas que muestra cuatro frutas distintas con todas las frutas únicas y la lista de frutas: manzana, piña, sandía y plátano.
Nota:
Por motivos de simplicidad, esta tabla de referencia Frutas solo incluye el nombre de las frutas que serán necesarias para este escenario. La tabla de referencia puede tener tantas filas como necesite.
El objetivo es crear una tabla como la siguiente, donde ha estandarizado todos estos valores para que pueda realizar más análisis.
Captura de pantalla de la tabla de salida de encuesta de ejemplo con la columna Pregunta que contiene el gráfico de distribución de columnas. El gráfico muestra nueve respuestas distintas con todas las respuestas únicas. Las respuestas a la encuesta contienen todos los errores tipográficos, plurales o singulares y problemas de mayúsculas y minúsculas. La tabla de salida también contiene la columna Fruta. Esta columna contiene el gráfico de distribución de columnas que muestra cuatro respuestas distintas con una respuesta única. También se enumeran todas las frutas correctamente escritas, singulares y mayúsculas y minúsculas adecuadas.
Operación de combinación aproximada
Para realizar la combinación aproximada, empiece por realizar una combinación. En este caso, usará una combinación externa izquierda, donde la tabla izquierda es la de la encuesta y la tabla derecha es la tabla de referencia Frutas. En la parte inferior del cuadro de diálogo, active la casilla Usar coincidencia aproximada para realizar la combinación.
Después de seleccionar Aceptar, puede ver una nueva columna en la tabla debido a esta operación de combinación. Si la expande, hay una fila que no contiene ningún valor. Eso es exactamente lo que el mensaje del cuadro de diálogo de la imagen anterior indicó en "La selección coincide con 8 de 9 filas de la primera tabla.".
Captura de pantalla de la columna de fruta agregada a la tabla de la encuesta. Todas las filas de la columna Pregunta están expandidas, excepto la fila 9, que no se pudo expandir y la columna Fruta, que contiene null.
Opciones de coincidencia aproximada
Puede modificar las Opciones de coincidencia aproximada para ajustar cómo se debe realizar la coincidencia aproximada. En primer lugar, seleccione el comando Combinar consultas y, después, en el cuadro de diálogo Combinar, expanda Opciones de coincidencia aproximada.
Las opciones disponibles son:
- Umbral de similitud (opcional): un valor entre 0,00 y 1,00 que permite hacer coincidir los registros por encima de una puntuación de similitud determinada. Un umbral de 1,00 es lo mismo que especificar un criterio de coincidencia exacta. Por ejemplo, Uvas coincide con Uas (falta la letra v) solo si el umbral se establece en menos de 0,90. De forma predeterminada, este valor se establece en 0.80.
- Omitir mayúsculas y minúsculas: permite cotejar registros sin importar las mayúsculas y minúsculas del texto.
- Coincidencia mediante la combinación de partes de texto: permite combinar partes de texto para buscar coincidencias. Por ejemplo, Micro soft se coteja con Microsoft si esta opción está habilitada.
- Mostrar puntuaciones de similitud: muestra puntuaciones de similitud entre la entrada y los valores coincidentes después de la coincidencia aproximada.
- Número de coincidencias (opcional): especifica el número máximo de filas coincidentes que se pueden devolver para cada fila de entrada.
- Tabla de transformación (opcional): permite cotejar registros basados en asignaciones de valores personalizadas. Por ejemplo, Uvas se coteja con Pasas si se ha indicado una tabla de transformación donde la columna De contiene Uvas y la columna A contiene Pasas.
Tabla de transformación
Para el ejemplo de este artículo, puede usar una tabla de transformación para asignar el valor que tiene un par que falta. Ese valor es mnza, que debe asignarse a Manzana. La tabla de transformación tiene dos columnas:
- De contiene los valores que se van a buscar.
- A contiene los valores que se usan para reemplazar los valores encontrados mediante la columna De.
Para este artículo, la tabla de transformación se parece a la siguiente:
De | En |
---|---|
mnza | Manzana |
Puede volver al cuadro de diálogo Combinar y, en Opciones de coincidencia aproximadas en Número de coincidencias, introduzca 1. Habilite la opción Mostrar puntuaciones de similitud y, a continuación, en Tabla de transformación, seleccione Tabla de transformación en el menú desplegable.
Después de seleccionar Aceptar, puede ir al paso de combinación. Al expandir la columna con valores de tabla, además del campo Fruta, también verá el campo Puntuación de similitud. Seleccione ambos campos y expándalos sin agregar un prefijo.
Después de expandir estos dos campos, se agregan a la tabla. Anote los valores que obtiene para las puntuaciones de similitud de cada valor. Estas puntuaciones pueden ayudarle con transformaciones adicionales si es necesario para determinar si debe reducir o aumentar el umbral de similitud.
En este ejemplo, la Puntuación de similitud solo sirve como información adicional y no es necesaria en la salida de esta consulta, por lo que puede quitarla. Observe cómo el ejemplo comenzó con nueve valores distintos, pero después de la combinación aproximada, solo hay cuatro valores distintos.
Captura de pantalla de la tabla de salida de la encuesta con combinación aproximada con la columna Pregunta que contiene el gráfico de distribución de columnas que muestra nueve respuestas distintas con todas las respuestas únicas, y las respuestas a la encuesta con todos los errores tipográficos, plurales o singulares, y problemas de mayúsculas y minúsculas. También contiene la columna Fruta con el gráfico de distribución de columnas que muestra cuatro respuestas distintas con una respuesta única y enumera todas las frutas escritas correctamente, en singular y con las mayúsculas y minúsculas adecuadas.
Para obtener más información sobre cómo funcionan las tablas de transformación, vaya a Prescripciones de tabla de transformación.