Compartir a través de


Procedimientos recomendados de unificación de datos

Cuando configure reglas para unificar sus datos en un perfil de cliente, tenga en cuenta estas prácticas recomendadas:

  • Equilibre el tiempo para unificar frente a la coincidencia completa. Intentar capturar todas las coincidencias posibles lleva a muchas reglas y la unificación lleva mucho tiempo.

  • Agregue reglas progresivamente y realice un seguimiento de los resultados. Eliminar las reglas que no mejoran el resultado de la coincidencia.

  • Desduplique cada tabla para que todos los clientes estén representados en una sola fila.

  • Utilice la normalización para estandarizar las variaciones en la forma en que se introdujeron los datos, como Calle, Cl, cl o cl.

  • Utilice la coincidencia aproximada estratégicamente para corregir erratas y errores como bob@contoso.com y bob@contoso.cm. Las coincidencias aproximadas tardan más en ejecutarse que las exactas. Pruebe siempre para ver si el tiempo adicional dedicado a la coincidencia aproximada vale la pena el aumento en la tasa de coincidencia.

  • Limite el alcance de las coincidencias con la coincidencia exacta. Asegúrese de que todas las reglas con condiciones aproximadas tengan al menos una condición de coincidencia exacta.

  • No emparejar columnas que contengan datos muy repetidos. Asegúrese de que las columnas de coincidencia aproximada no tengan valores que se repitan con frecuencia, como el valor predeterminado de un formulario de "Nombre".

Rendimiento de la unificación

Cada regla tarda en ejecutarse. Patrones como comparar cada tabla con cualquier otra tabla o intentar capturar todas las coincidencias de registros posibles pueden llevar a largos tiempos de procesamiento de unificación. También devuelve pocas coincidencias, si es que hay alguna, en un plan que compara cada tabla con una tabla base.

El mejor enfoque es comenzar con un conjunto básico de reglas que sepa que son necesarias, como comparar cada tabla con su tabla principal. Su tabla primaria debe ser la tabla con los datos más completos y precisos. Esta tabla debe ordenarse en la parte superior en el paso Unificación de reglas coincidentes.

Agregue progresivamente varias reglas y vea cuánto tiempo tardan en ejecutarse los cambios y si sus resultados mejoran. Vaya a Configuración>Estado >del sistema y seleccione Coincidencia para ver cuánto tardaron la desduplicación y la coincidencia en cada ejecución de unificación.

Captura de pantalla de la página Estado que muestra los tiempos de ejecución de las coincidencias.

Consulte las estadísticas de las reglas en las páginas Reglas de desduplicación y Reglas de coincidencia para ver si cambia el número de registros únicos. Si una nueva regla coincide con algunos registros y el recuento único de registros no cambia, una regla anterior identifica esas coincidencias.

Captura de pantalla de la página de reglas de coincidencia que resalta registros únicos.

Datos de clientes

En el paso Datos del cliente:

  • Excluya las columnas que no sean necesarias para las reglas coincidentes o que no desee que se incluyan en el perfil del cliente final.

  • Revise las descripciones de las columnas seleccionadas por la asignación inteligente.

  • No es necesario asignar todas las columnas. La asignación de columnas comunes, como los campos de correo electrónico y dirección, permite a Customer Insights facilitar los procesos posteriores, pero las columnas con un id. o propósito único para su negocio pueden dejarse sin asignar.

Desduplicación

Use reglas de desduplicación para quitar registros de clientes duplicados dentro de una tabla, de modo que una sola fila de cada tabla represente a cada cliente. Una buena regla identifica a un cliente único.

En este sencillo ejemplo, los registros 1, 2 y 3 comparten un correo electrónico o un número de teléfono y representan a la misma persona.

ID Nombre. Teléfono Email
1 Persona 1 (425) 555-1111 AAA@A.com
2 Persona 1 (425) 555-1111 BBB@B.com
3 Persona 1 (425) 555-2222 BBB@B.com
4 Persona 2 (206) 555-9999 Person2@contoso.com

No queremos hacer coincidir solo el nombre, ya que eso haría coincidir a diferentes personas con el mismo nombre.

  • Cree la regla 1 con nombre y teléfono, que coincida con los registros 1 y 2.

  • Cree la regla 2 con nombre y correo electrónico, que coincida con los registros 2 y 3.

La combinación de la Regla 1 y la Regla 2 crea un grupo de coincidencia único porque comparten el registro 2.

Usted decide el número de reglas y condiciones que identifican de forma única a sus clientes. Las reglas exactas dependen de los datos que tenga disponibles para la coincidencia, la calidad de sus datos y lo exhaustivo que desee que sea el proceso de desduplicación.

Normalización

Utilice la normalización para estandarizar los datos y mejorar la coincidencia. La normalización funciona bien en grandes conjuntos de datos.

Los datos normalizados solo se utilizan con fines de comparación para hacer coincidir los registros de los clientes de manera más efectiva. No cambia los datos en la salida final unificada del perfil del cliente.

Coincidencia exacta

Utilice la precisión para determinar lo cerca que deben estar dos cadenas para que se considere una coincidencia. La configuración de precisión predeterminada requiere una coincidencia exacta. Cualquier otro valor habilita la coincidencia aproximada para esa condición.

La precisión se puede establecer en baja (30 % de coincidencia), media (60 % de coincidencia) y alta (80 % de coincidencia). O bien, puede personalizar y establecer la precisión en incrementos del 1 %.

Condiciones de coincidencia exacta

Las condiciones de coincidencia exacta se ejecutan primero para obtener un conjunto más pequeño de valores para las coincidencias aproximadas. Para que sean efectivas, las condiciones de coincidencia exacta deben tener un grado razonable de unicidad. Por ejemplo, si todos sus clientes viven en el mismo país o región, tener una coincidencia exacta en el país o región no ayudaría a reducir el alcance.

Las columnas como los campos de nombre completo, correo electrónico, teléfono o dirección tienen una buena unicidad y son excelentes columnas para usar como coincidencia exacta.

Asegúrese de que la columna que usa para una condición de coincidencia exacta no tenga valores que se repitan con frecuencia, como un valor predeterminado de "Nombre" capturado por un formulario. Customer Insights puede generar perfiles de columnas de datos para proporcionar información sobre los valores más repetidos. Puede habilitar la generación de perfiles de datos en conexiones de Azure Data Lake (usando Common Data Model o formato Delta) y Synapse. El perfil de datos se ejecuta la próxima vez que se actualiza el origen de datos. Para más información, vaya a Creación de perfiles de datos.

Coincidencia parcial

Utilice la coincidencia aproximada para hacer coincidir cadenas que están cerca pero que no son exactas debido a errores tipográficos u otras pequeñas variaciones. Utilice la coincidencia aproximada estratégicamente, ya que es más lenta que las coincidencias exactas. Asegúrese de que haya al menos una condición de coincidencia exacta en cualquier regla que tenga condiciones difusas.

La coincidencia aproximada no está pensada para capturar variaciones de nombres como Suzzie y Suzanne. Estas variaciones se captan mejor con el patrón Tipo de normalización: Nombre o la concordancia personalizada Alias donde los clientes pueden introducir su lista de variaciones de nombre que quieren considerar como coincidencias.

Puede agregar condiciones a una regla, como hacer coincidir el nombre y el teléfono. Las condiciones dentro de una regla determinada son condiciones "Y". Todas las condiciones deben coincidir para que las filas coincidan. Las reglas separadas son condiciones "O". Si la Regla 1 no coincide con las filas, las filas se comparan con la Regla 2.

Nota

Sólo las columnas de tipo de datos de cadena pueden utilizar concordancia aproximada. Para las columnas con otros tipos de datos, como entero, doble o fecha y hora, el campo de precisión es de solo lectura y se establece en la coincidencia exacta.

Cálculos de coincidencia difusa

Las coincidencias aproximadas se determinan calculando la puntuación de distancia de edición entre dos cadenas. Si la puntuación alcanza o supera el umbral de precisión, las cadenas se consideran una coincidencia.

La distancia de edición es el número de ediciones necesarias para convertir una cadena en otra, añadiendo, eliminando o cambiando un carácter.

Por ejemplo, las cadenas "robert2020@hotmail.com" y "robrt2020@hotmail.cm" tienen una distancia de edición de dos cuando eliminamos los caracteres e y o. Para calcular la puntuación de la distancia de edición, utilice esta fórmula: (Longitud de la cadena base – Distancia de edición) / Longitud de la cadena base.

Cadena base Cadena de comparación Puntuación
robert2020@hotmail.com robrt2020@hotmail.cm (20 - 2)/20 = 0,9