Procedimientos recomendados de unificación de datos

Artículo
12/11/2024

Cuando configure reglas para unificar sus datos en un perfil de cliente, tenga en cuenta estas prácticas recomendadas:

Equilibre el tiempo para unificar frente a la coincidencia completa. Intentar capturar todas las coincidencias posibles lleva a muchas reglas y la unificación lleva mucho tiempo.
Agregue reglas progresivamente y realice un seguimiento de los resultados. Eliminar las reglas que no mejoran el resultado de la coincidencia.
Deduplique cada tabla para que todos los clientes estén representados en una sola fila.
Utilice la normalización para estandarizar las variaciones en la forma en que se introdujeron los datos, como Street vs. St vs. St. vs. st.
Utilice la coincidencia aproximada estratégicamente para corregir erratas y errores como bob@contoso.com y bob@contoso.cm. Las coincidencias aproximadas tardan más en ejecutarse que las exactas. Pruebe siempre si el tiempo adicional dedicado a la concordancia difusa compensa la tasa de concordancia adicional.
Limite el alcance de las coincidencias con la coincidencia exacta. Asegúrese de que todas las reglas con condiciones aproximadas tengan al menos una condición de coincidencia exacta.
No emparejar columnas que contengan datos muy repetidos. Asegúrese de que las columnas de coincidencia aproximada no tengan valores que se repitan con frecuencia, como el valor predeterminado de un formulario de "Nombre".

Rendimiento de la unificación

Cada regla tarda en ejecutarse. Patrones como comparar cada tabla con cualquier otra tabla o intentar capturar todas las coincidencias de registros posibles pueden llevar a largos tiempos de procesamiento de unificación. También devuelve pocas coincidencias, si es que hay alguna, en un plan que compara cada tabla con una tabla base.

El mejor enfoque es comenzar con un conjunto básico de reglas que sepa que son necesarias, como comparar cada tabla con su tabla principal. Su tabla primaria debe ser la tabla con los datos más completos y precisos. Esta tabla debe ordenarse en la parte superior en el paso Unificación de reglas coincidentes.

Agregue progresivamente varias reglas y vea cuánto tiempo tardan en ejecutarse los cambios y si sus resultados mejoran. Vaya a Configuración>Estado >del sistema y seleccione Coincidencia para ver cuánto tardaron la desduplicación y la coincidencia en cada ejecución de unificación.

Captura de pantalla de la página Estado que muestra los tiempos de ejecución de las coincidencias.

Consulte las estadísticas de las reglas en las páginas Reglas de desduplicación y Reglas de coincidencia para ver si cambia el número de registros únicos. Si una nueva regla coincide con algunos registros y el recuento único de registros no cambia, una regla anterior identifica esas coincidencias.

Captura de pantalla de la página de reglas de coincidencia que resalta registros únicos.

Desduplicación

Use reglas de deduplicación para quitar registros de clientes duplicados dentro de una tabla, de modo que una sola fila de cada tabla represente a cada cliente. Una buena regla identifica a un cliente único.

En este sencillo ejemplo, los registros 1, 2 y 3 comparten un correo electrónico o un número de teléfono y representan a la misma persona.

ID	Name	Teléfono	Email
1	Persona 1	(425) 555-1111	AAA@A.com
2	Persona 1	(425) 555-1111	BBB@B.com
3	Persona 1	(425) 555-2222	BBB@B.com
4	Persona 2	(206) 555-9999	Person2@contoso.com

No queremos hacer coincidir solo el nombre, ya que eso haría coincidir a diferentes personas con el mismo nombre.

Cree la regla 1 con Nombre y teléfono, que coincide con los registros 1 y 2.
Cree la regla 2 con nombre y correo electrónico, que coincida con los registros 2 y 3.

La combinación de la Regla 1 y la Regla 2 crea un grupo de coincidencia único porque comparten el registro 2.

Usted decide el número de reglas y condiciones que identifican de forma única a sus clientes. Las reglas exactas dependen de los datos que tenga disponibles para coincidir, la calidad de sus datos y lo exhaustivo que desee que sea el proceso de deduplicación.

Récords de ganador y alternos

Una vez que se ejecutan las reglas y se identifican los registros duplicados, el proceso de deduplicación selecciona una "fila ganadora". Las filas no ganadoras se denominan "filas alternativas". Las filas alternativas se utilizan en el paso Unificación de reglas de coincidencia para hacer coincidir los registros de otras tablas con la fila ganadora. Las filas se comparan con los datos de las filas alternativas además de la fila ganadora.

Una vez que haya agregado una regla a una tabla, puede configurar qué fila seleccionar como fila ganadora a través de las preferencias de combinación. Las preferencias de combinación se establecen por tabla. Independientemente de la directiva de combinación que se seleccione, si hay un empate en una fila ganadora, la primera fila del orden de datos se usa como criterio de desempate.

Normalización

Utilice la normalización para estandarizar los datos y mejorar la coincidencia. La normalización funciona bien en grandes conjuntos de datos.

Los datos normalizados solo se utilizan con fines de comparación para hacer coincidir los registros de los clientes de manera más efectiva. No cambia los datos en la salida final unificada del perfil del cliente.

Normalización	Ejemplos
Números	Convierte muchos símbolos Unicode que representan números en números simples. Ejemplos: ❽ y Ⅷ están normalizados al número 8. Nota: Los símbolos deben estar codificados en formato de puntos Unicode.
Símbolos	Elimina símbolos y caracteres especiales. Ejemplos: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Texto en minúsculas	Convierte los caracteres en mayúscula a minúscula. Ejemplo: 'ESTO ES uN EJemplo' se convierte en 'esto es un ejemplo'
Tipo: Teléfono	Convierte teléfonos en varios formatos a dígitos y tiene en cuenta las variaciones en la forma en que se presentan los códigos de país y las extensiones. Ejemplo: +01 425.555.1212 = 1 (425) 555-1212
Tipo: Nombre	Convierte más de 500 variaciones de nombres y títulos comunes. Ejemplos: "debby" -> "deborah" "prof" y "profesor" -> "Prof."
Tipo: Dirección	Convierte partes comunes de direcciones Ejemplos: "calle" -> "C." y "noroeste" -> "NO"
Tipo: Organización	Elimina alrededor de 50 'palabras irrelevantes' de nombres de empresas, como "co", "corp", "corporación" y "ltd".
Unicode a ASCII	Convierte los caractertes Unicode en su equivalente ASCII Ejemplo: Los caracteres 'à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' 'Ⓐ,' y 'Ａ' se convierten todos en 'a'.
Espacio en blanco	Elimina todos los espacios en blanco
Asignación de alias	Le permite cargar una lista personalizada de pares de cadenas que luego se pueden usar para indicar cadenas que siempre deben considerarse una coincidencia exacta. Utilice la asignación de alias cuando tenga ejemplos de datos específicos que crea que deberían coincidir y no coincidan utilizando uno de los otros patrones de normalización. Ejemplo: Scott y Scooter, o MSFT y Microsoft.
Omisión personalizada	Le permite cargar una lista personalizada de cadenas que luego se pueden usar para indicar cadenas que nunca deben ser coincidencia. La omisión personalizada es útil cuando tiene datos con valores comunes que deben ignorarse, como un número de teléfono ficticio o un correo electrónico ficticio. Ejemplo: nunca haga coincidir el teléfono 555-1212, o test@contoso.com

Coincidencia exacta

Utilice la precisión para determinar qué tan cerca deben estar dos cadenas para que se considere una coincidencia. La configuración de precisión predeterminada requiere una coincidencia exacta. Cualquier otro valor habilita la coincidencia aproximada para esa condición.

La precisión se puede establecer en baja (30 % de coincidencia), media (60 % de coincidencia) y alta (80 % de coincidencia). O bien, puede personalizar y establecer la precisión en incrementos del 1 %.

Condiciones de coincidencia exacta

Las condiciones de coincidencia exacta se ejecutan primero para obtener un conjunto más pequeño de valores para las coincidencias aproximadas. Para que sean efectivas, las condiciones de coincidencia exacta deben tener un grado razonable de unicidad. Por ejemplo, si todos sus clientes viven en el mismo país o región, tener una coincidencia exacta en el país o región no ayudaría a reducir el alcance.

Las columnas como los campos de nombre completo, correo electrónico, teléfono o dirección tienen una buena unicidad y son excelentes columnas para usar como coincidencia exacta.

Asegúrese de que la columna que usa para una condición de coincidencia exacta no tenga valores que se repitan con frecuencia, como un valor predeterminado de "Nombre" capturado por un formulario. Customer Insights puede generar perfiles de columnas de datos para proporcionar información sobre los valores más repetidos. Puede habilitar la generación de perfiles de datos en conexiones Azure Data Lake (usando Common Data Model o formato Delta) y Synapse. El perfil de datos se ejecuta la próxima vez que se actualiza el origen de datos. Para más información, vaya a Creación de perfiles de datos.

Coincidencia parcial

Utilice la coincidencia aproximada para hacer coincidir cadenas que están cerca pero que no son exactas debido a errores tipográficos u otras pequeñas variaciones. Utilice la coincidencia aproximada estratégicamente, ya que es más lenta que las coincidencias exactas. Asegúrese de que haya al menos una condición de coincidencia exacta en cualquier regla que tenga condiciones difusas.

La coincidencia aproximada no está pensada para capturar variaciones de nombres como Suzzie y Suzanne. Estas variaciones se captan mejor con el patrón Tipo de normalización: Nombre o la concordancia personalizada Alias donde los clientes pueden introducir su lista de variaciones de nombre que quieren considerar como coincidencias.

Puede agregar condiciones a una regla, como hacer coincidir el nombre y el teléfono. Las condiciones dentro de una regla determinada son condiciones "Y". Todas las condiciones deben coincidir para que las filas coincidan. Las reglas separadas son condiciones "O". Si la Regla 1 no coincide con las filas, las filas se comparan con la Regla 2.

Nota

Sólo las columnas de tipo de datos de cadena pueden utilizar concordancia aproximada. Para las columnas con otros tipos de datos, como entero, doble o fecha y hora, el campo de precisión es de solo lectura y se establece en la coincidencia exacta.

Cálculos de coincidencia difusa

Las coincidencias aproximadas se determinan calculando la puntuación de distancia de edición entre dos cadenas. Si la puntuación alcanza o supera el umbral de precisión, las cadenas se consideran una coincidencia.

La distancia de edición es el número de ediciones necesarias para convertir una cadena en otra, añadiendo, eliminando o cambiando un carácter.

Por ejemplo, las cadenas "Jacqueline" y "Jaclyne" tienen una distancia de edición de cinco cuando eliminamos los caracteres q, u, e, i y e, e insertamos el carácter y.

Para calcular la puntuación de la distancia de edición, utilice esta fórmula: (Longitud de la cadena base – Distancia de edición) / Longitud de la cadena base.

Cadena base	Cadena de comparación	Puntuación
Jacqueline	Jaclyne	(10-4)/10=0,6
fred@contoso.com	fred@contso.cm	(14-2) / 14 = 0,857
franklin	frank	(8-3) / 8 = 0,625

Compartir a través de