Microsoft Purview 中的自定义分类
本文介绍如何创建自定义分类,以定义组织特有的数据资产中的数据类型。 它还介绍了如何创建自定义分类规则,以便在整个数据资产中查找指定数据。
重要
若要创建自定义分类,需要对集合具有 数据策展人 或 数据源管理员 权限。 任何集合级别的权限都已足够。 有关权限的详细信息,请参阅: Microsoft Purview 权限。
默认系统分类
Microsoft Purview 数据目录提供了一大组默认系统分类,这些分类代表数据资产中可能具有的典型个人数据类型。 有关可用系统分类的完整列表,请参阅 Microsoft Purview 中支持的分类。
如果任何默认分类不能满足你的需求,还可以创建自定义分类。
注意
我们的数据采样规则同时应用于系统和自定义分类。
注意
Microsoft Purview 自定义分类仅适用于结构化数据源(如 SQL 和 CosmosDB),以及结构化文件类型(如 CSV、JSON 和 Parquet)。 自定义分类不适用于 DOC、PDF 和 XLSX 等非结构化数据类型。
创建自定义分类的步骤
若要创建自定义分类,请执行以下步骤:
需要对任何集合具有数据策展人或数据源管理员权限才能创建自定义分类。
在目录中,从左侧菜单中选择“ 数据映射 ”。
在“批注管理”下选择“分类”。
选择 “+ 新建”
此时会打开 “添加新分类 ”窗格,可在其中为分类提供名称和说明。 最好使用名称间距约定,例如 your company name.classification name
。
Microsoft 系统分类在保留 MICROSOFT.
命名空间下分组。 MICROSOFT 就是一个示例 。政府。我们。SOCIAL_SECURITY_NUMBER。
分类名称必须以字母开头,后跟字母、数字和句点序列, (.) 或下划线字符。 键入时,UX 会自动生成一个友好名称。 将此友好名称应用于目录中的资产时,用户会看到此友好名称。
为了使名称保持简短,系统会基于以下逻辑创建友好名称:
除了命名空间的最后两个段,所有段都将被剪裁。
调整大小写,以便将每个单词的第一个字母大写。
将所有下划线 (_) 替换为空格。
例如,如果将分类 命名为contoso.hr.employee_ID,友好名称将作为 Hr.Employee ID 存储在系统中。
选择“ 确定”,新分类将添加到分类列表中。
选择列表中的分类将打开分类详细信息页。 可在此处找到有关分类的所有详细信息。
这些详细信息包括存在多少个实例的计数、正式名称、关联的分类规则 ((如果有任何) )以及所有者名称。
自定义分类规则
目录服务提供一组默认分类规则,扫描程序使用这些规则自动检测某些数据类型。 还可以添加自己的自定义分类规则,以检测你可能有兴趣在整个数据资产中查找的其他类型的数据。 当你尝试在数据资产中查找数据时,此功能可能非常强大。
注意
自定义分类规则仅在英语中受支持。
例如,假设一家名为 Contoso 的公司具有在整个公司中标准化的员工 ID,其后跟一个用于创建 EMPLOYEE{GUID} 的 GUID。 例如,员工 ID 的一个实例类似于 EMPLOYEE9c55c474-9996-420c-a285-0d0fc23f1f55
。
Contoso 可以通过创建自定义分类规则来配置扫描系统以查找这些 ID 的实例。 它们可以提供与数据模式匹配的正则表达式,在本例中为 \^Employee\[A-Za-z0-9\]{8}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{12}\$
。 (可选)如果数据通常位于他们知道其名称的列中(如 Employee_ID 或 EmployeeID),则可以添加列模式正则表达式,使扫描更加准确。 示例正则表达式是 Employee_ID|EmployeeID。
然后,扫描系统可以使用此规则检查列和列名称中的实际数据,以尝试识别找到员工 ID 模式的每个实例。
创建自定义分类规则的步骤
创建自定义分类规则:
按照上一部分中的说明创建自定义分类。 你将在分类规则配置中添加此自定义分类,以便系统在列中找到匹配项时应用它。
选择“ 数据映射 ”图标。
选择“ 分类规则 ”部分。
选择 新建。
此时将打开 “新建分类规则 ”对话框。 填写字段并决定是创建 正则表达式规则 还是 字典规则。
字段 说明 名称 必填。 最大值为 100 个字符。 说明 可选。 最大值为 256 个字符。 分类名称 必填。 从下拉列表中选择分类的名称,告知扫描程序在找到匹配项时应用它。 状态 必填。 选项处于启用或禁用状态。 “启用”为默认值。
创建正则表达式规则
重要
自定义分类中的正则表达式不区分大小写。
如果创建正则表达式规则,你将看到以下屏幕。 可以选择上传一个文件,该文件将用于 为规则生成建议的正则表达式模式 。 仅支持英语语言规则。
如果决定生成建议的正则表达式模式,请在上传文件后选择其中一种建议的模式,然后选择“ 添加到模式 ”以使用建议的数据和列模式。 可以调整建议的模式,也可以键入自己的模式,而无需上传文件。
字段 说明 数据模式 可选。 一个正则表达式,表示存储在数据字段中的数据。 限制很大。 在上一个示例中,数据模式测试员工 ID,字面意思是 单词 Employee{GUID}
。列模式 可选。 表示要匹配的列名的正则表达式。 限制很大。 在 “数据模式” 下,可以使用 “最小匹配阈值 ”设置扫描程序必须找到才能应用分类的列中非重复数据值匹配项的最小百分比。 建议的值为 60%。 如果指定多个数据模式,则禁用此设置,并且该值固定为 60%。
注意
最低匹配阈值必须至少为 1%。
现在可以验证并 创建 规则。
在完成创建过程之前测试分类规则,以验证该规则是否会向资产应用标记。 规则中的分类将应用于上传的示例数据,就像在扫描中一样。 这意味着所有系统分类和自定义分类都将与文件中的数据匹配。
输入文件可能包括 (CSV、PSV、SSV、TSV) 、JSON 或 XML 内容的分隔文件。 将根据输入文件的文件扩展名分析内容。 带分隔符的数据可能具有与上述任何类型匹配的文件扩展名。 例如,TSV 数据可以存在于名为 MySampleData.csv 的文件中。 带分隔符的内容还必须至少包含三列。
创建字典规则
如果创建字典规则,你将看到以下屏幕。 上传一个文件,该文件包含你在单个列中创建的分类的所有可能值。 仅支持英语语言规则。
生成字典后,可以调整最小匹配阈值并提交规则。
编辑或删除自定义分类
若要更新或编辑自定义分类,请执行以下步骤:
在 Microsoft Purview 帐户中,依次选择 “数据映射”、“ 分类”。
选择“ 自定义 ”选项卡。
选择要编辑的分类,然后选择“ 编辑” 按钮。
现在可以编辑此自定义分类的说明。 完成保存更改后,选择“ 确定 ”按钮。
删除自定义分类:
- 打开 “数据映射”,然后选择“ 分类”后,选择“ 自定义 ”选项卡。
- 选择要删除的分类或要删除的多个分类,然后选择“ 删除 ”按钮。
还可以在分类本身内部编辑或删除分类。 只需选择分类,然后选择顶部菜单中的 “编辑 ”或“ 删除 ”按钮。
启用或禁用分类规则
在 Microsoft Purview 帐户中,依次选择 “数据映射”、“ 分类规则”。
选择“ 自定义 ”选项卡。
可以通过查看表中的“状态”列来检查分类规则的当前状态。
选择要启用或禁用的分类规则或多个分类规则。
选择顶部菜单中的 “启用 ”或“ 禁用 ”按钮。
编辑规则时,还可以更新规则的状态。
编辑或删除分类规则
若要更新或编辑自定义分类规则,请执行以下步骤:
在 Microsoft Purview 帐户中,依次选择 “数据映射”、“ 分类规则”。
选择“ 自定义 ”选项卡。
选择要编辑的分类规则,然后选择“ 编辑” 按钮。
现在可以编辑状态、说明和关联的分类规则。
选择“ 继续 ”按钮。
可以上传要匹配的正则表达式或字典规则的新文件,并更新匹配阈值和列模式匹配。
选择 应用 以保存更改。 需要使用新规则重新运行扫描,以跨资产应用更改。
删除自定义分类:
打开 “数据映射”,然后选择“ 分类规则”后,选择“ 自定义 ”选项卡。
选择要删除的分类规则,然后选择“ 删除 ”按钮。
后续步骤
创建分类规则后,可以将其添加到扫描规则集,以便扫描在扫描时使用该规则。 有关详细信息,请参阅 创建扫描规则集。