定义数据统一的匹配规则
统一中的此步骤定义跨表匹配的匹配顺序和规则。 此步骤至少需要两个表。 当记录匹配时,它们会与每个表中的所有字段串联成一个记录。 匹配时会考虑备用行(删除重复步骤中的非获胜者行)。 但是,如果一行与表中的备用行匹配,该记录将与获胜者行匹配。
备注
创建匹配条件并选择下一步后,您无法删除选定的表或列。 如果需要,请选择返回以在继续之前查看所选表和列。
以下步骤和图像反映您第一次完成统一流程的情况。 要编辑现有统一设置,请参阅更新统一设置。
包括扩充的表(预览)
如果您在数据源级别扩充了表以帮助改进统一结果,请选择它们。 有关详细信息,请参阅数据源扩充。 如果在删除重复项规则页上选择了扩充表,则不需要再次选择这些表。
在匹配规则页上,选择页面顶部的使用扩充的表。
从使用已扩充表窗格中,选择一个或多个扩充的表。
选择完成。
指定匹配顺序
每个匹配将两个或多个表统一为一个合并表。 同时,它将保留唯一的客户记录。 匹配顺序表示系统尝试匹配记录的顺序。
重要提示
第一个表称为主表,它是统一配置文件的基础。 所选的其他表将添加到此表中。
重要考虑因素。
- 选择具有关于客户的最完整和最可靠的个人资料数据的表作为主表。
- 选择与其他表一样具有多个列(例如,姓名、电话号码或电子邮件地址)的表作为主表。
- 表只能与其他优先级更高的表进行匹配。 因此,Table2 只能与 Table1 匹配,Table3 可以与 Table2 或 Table1 匹配。
在匹配规则页上,使用向上和向下箭头按需要的顺序移动表,或拖放实体。 例如,选择 eCommerceContacts 作为主表,选择 loyCustomer 作为第二个表。
如果要将表中的每条记录作为唯一客户而且不考虑是否找到匹配项,请选择包括所有记录。 此表中与任何其他表中的记录不匹配的任何记录都包含在统一配置文件中。 没有匹配项的记录称为单一实例。
主表 eCommerceContacts 与下一个表 loyCustomer 匹配。 如果您有两个以上表,则将第一个匹配步骤产生的数据集与以下表进行匹配。 如果 eCommerceContacts 中仍然存在重复项,当 loyCustomer 与 eCommerceContacts 匹配时,eCommerceContacts 重复行不会减少为单个客户记录。 但是,如果 loyCustomer 中的重复行与 eCommerceContacts 中的行匹配,这些行将减少为单个客户记录。
定义匹配对的规则
匹配规则指定匹配一对特定表时所用逻辑。 规则由一个或多个条件组成。
表名称旁边的警告表示没有为匹配对定义匹配规则。
为表对选择添加规则以定义匹配规则。
在添加规则窗格中,配置规则的条件。
选择表/字段(第一行):选择可能对于客户是唯一的表和列。 例如,电话号码或电子邮件地址。 避免按活动-类型列进行匹配。 例如,购买 ID 可能在其他记录类型中找不到匹配项。
选择表/字段(第二行):选择与第一行中指定的表列相关的列。
归一化:选择 列的归一化选项 。
- 数字:将表示数字的 Unicode 符号转换为简单数字。
- 符号:删除符号和特殊字符,例如!”#$%&'()*+,-./:;<=>?@[]^_'{|}~. 例如,Head&Shoulder 会变为 HeadShoulder。
- 文本转换为小写:将大写字符转换为小写。 “ALL CAPS and Title Case”会变为“all caps and title case。”
- 类型(电话、姓名、地址、组织):标准化姓名、职务、电话号码和地址。
- Unicode 转 ASCII:将 Unicode 字符转换为等效的 ASCII 字母。 例如,重音符号 ề 将转换为 e 字符。
- 空白:删除所有空格。 Hello World 会变为 HelloWorld。
- 别名映射:允许您上传字符串对的自定义列表,以指示应始终被视为完全匹配的字符串。
- 自定义绕过:允许您上传自定义字符串列表,以指示不应匹配的字符串。
精度:设置要用于此条件的精度级别。 精度用于精确匹配和模糊匹配,并确定两个字符串需要关闭多长时间才能被视为匹配。
- 基本:从低 (30%)、中 (60%)、高 (80%) 和精确 (100%) 中选择。 选择精确以仅匹配 100% 匹配的记录。
- 自定义:设置记录需要匹配的百分比。 系统将只匹配传递此阈值的记录。
名称:规则的名称。
若要仅在列满足多个条件时匹配表,请选择添加>添加条件,以向匹配规则添加更多条件。 条件与逻辑 AND 运算符相连,因此仅在满足所有条件时才会执行。
选择完成以完成规则。
(可选)添加更多规则。
选择下一步。
向匹配对中添加规则
匹配规则表示条件集。 要根据多个列按条件匹配表,请添加更多规则。
针对要添加规则的表选择添加规则。
按照定义匹配对的规则中的步骤操作。
备注
规则的顺序很重要。 匹配算法会根据您的第一条规则尝试匹配给定的客户记录,并且仅当没有与第一条规则匹配时才继续执行第二条规则。
高级选项
添加规则例外
在大多数情况下,表匹配会产生具有合并数据的唯一客户配置文件。 要处理极少数情况下的误报和漏报,为匹配规则定义例外。 在处理完匹配规则后应用例外,并避免匹配所有满足例外条件的记录。
例如,如果您的匹配规则结合了姓氏、城市和出生日期,则系统会将居住在同一城镇且姓氏相同的双胞胎识别为同一配置文件。 如果您组合的表中的名字不同,您可以指定一个与配置文件不匹配的例外。
在编辑规则窗格中,选择添加>添加例外。
指定例外条件。
选择完成保存规则。
指定自定义匹配条件
指定替代默认匹配逻辑的条件。 可使用以下四个选项:
选项 | 说明 | 示例 |
---|---|---|
始终匹配 | 为始终匹配的主键定义值。 | 始终将主键 12345 的行与主键 54321 的行匹配。 |
从不匹配 | 为从不匹配的主键定义值。 | 永远不会将主键 12345 的行与主键 54321 的行匹配。 |
绕过 | 定义匹配阶段中系统应始终忽略的值。 | 匹配期间忽略值 11111 和未知。 |
别名映射 | 定义系统应视为相同值的值。 | 认为 Joe 等同于 Joseph。 |
选择自定义。
选择自定义类型并选择下载模板。 重命名模板,不要使用空格。 为每个匹配选项使用单独的模板。
打开下载的模板文件并填写详细信息。 此模板中包含用于指定表的字段和要在自定义匹配中使用的表主键值。 表名称区分大小写。 例如,如果您希望销售表中的主键 12345 始终与联系人表中的主键 34567 匹配,则填写以下模板:
- Table1:销售
- Table1Key:12345
- Table2:联系人
- Table2Key:34567
同一个模板文件可以指定多个表的自定义匹配记录。
如果要为表上的删除重复操作指定自定义匹配,请提供与 Table1 和 Table2 相同的表,并设置不同的主键值。 要使用自定义匹配,必须至少为表定义一个删除重复项规则。
添加所有替代项之后,保存模板文件。
转到数据>数据源并将模板文件作为新表引入。
上传文件后,再次选择自定义选项。 从下拉菜单中选择所需的表,然后选择完成。
应用自定义匹配的操作取决于您使用的匹配选项。
- 对于始终匹配或从不匹配,请继续下一步。
- 对于绕过或别名映射,请对现有匹配规则选择编辑或创建新规则。 在“规范化”下拉列表中,选择自定义绕过或别名映射选项,然后选择完成。
在自定义窗格上选择完成以应用自定义匹配配置。
引入的每个模板文件都是其自己的数据源。 如果发现需要特殊匹配处理的记录,更新相应的数据源。 更新将在下一个统一过程中使用。 例如,您确定了住在同一个地址的名字几乎相同的双胞胎,而这个地址已经合并为一个人。 这时应更新数据源以将双胞胎识别为单独的唯一记录。