创建扫描规则集

在Microsoft Purview 数据映射中,可以创建扫描规则集,使你能够在组织中自定义数据源扫描

扫描规则集是一个容器,用于将一组扫描规则组合在一起,以便你可以轻松地将它们与扫描相关联。 例如,可以为每个数据源类型创建默认扫描规则集,然后默认将这些扫描规则集用于公司内的所有扫描。 你可能还希望具有适当权限的用户根据业务需求创建具有不同配置的其他扫描规则集。

创建扫描规则集的步骤

创建扫描规则集:

  1. 从 Microsoft Purview 门户中,选择 “数据映射 ”解决方案。

  2. “源管理 ”部分下,选择“ 扫描规则集”,然后选择“ 新建”。

  3. “新建扫描规则集 ”页中,从“ 源类型 ”下拉列表中选择目录扫描程序支持的数据源。 可以为要扫描的每种数据源类型创建扫描规则集。

  4. 为扫描规则集提供 名称。 最大长度为 63 个字符,不允许空格。 (可选)输入 “说明”。 长度不得超过 256 个字符。

    显示“扫描规则集”页的屏幕截图。

  5. 选择域。

    重要

    只能使用创建它的域中的扫描规则集。

  6. 选择 继续

    此时会显示 “选择文件类型 ”页。 请注意,此页上的文件类型选项因你在上一页上选择的数据源类型而异。 默认情况下,所有文件类型都处于启用状态。

    显示“选择文件类型”页的屏幕截图。

    通过此页上 的文档文件类型 选择,可以包括或排除以下 Office 文件类型:.doc、 .docm、.docx、.dot、.odp、.ods、.odt、.pdf、.pot、.pps、.ppsx、.ppt、.pptm、.pptx、.xlc、.xls、.xlsb、.xlsm、.xlsx 和 .xlt。

  7. 通过选中或清除“检查”框,启用或禁用架构和分类的文件类型。 如果选择 Data Lake 类型的数据源 (例如Azure Data Lake Storage Gen2或 Azure Blob) ,请启用要为其提取和分类架构的文件类型。

    重要

    取消选择文件类型 并不意味着 它不会被引入。 文件的信息仍将被引入,但不会提取其架构和分类。

  8. 对于某些数据源类型,还可以 创建自定义文件类型

  9. 选择 继续

    此时会显示 “选择分类规则 ”页。 此页显示选定的 “系统规则 ”和 “自定义规则”,以及所选分类规则的总数。 默认情况下,选中所有系统规则检查框

  10. 对于要包含或排除的规则,可以按类别全局选择或清除系统规则分类规则检查框。

    显示“选择分类规则”页的屏幕截图。

  11. 可以展开类别节点并选中或清除单个检查框。 例如,如果 Argentina.DNI 编号的规则误报较高,则可以清除该特定检查框。

    显示如何选择系统规则的屏幕截图。

  12. 选择“ 创建 ”以完成创建扫描规则集。

创建自定义文件类型

Microsoft Purview 支持在扫描规则集中添加自定义扩展和定义自定义列分隔符。

创建自定义文件类型:

  1. 按照步骤 1-5 中的 步骤创建扫描规则集 或编辑现有扫描规则集。

  2. “选择文件类型” 页上,选择“ 新建文件类型 ”以创建新的自定义文件类型。

    显示如何从“选择文件类型”页中选择“新建文件类型”的屏幕截图。

  3. 输入 文件扩展名 和可选的 “说明”。

    显示“新建自定义文件类型”页的屏幕截图。

  4. 中的文件内容 进行以下选择之一,以指定文件中的文件内容类型:

    • 选择“ 自定义分隔符 ”,并输入自己的 自定义分隔符 , (仅) 单个字符。

    • 选择“ 系统文件类型 ”,然后从“系统文件类型 ”下拉列表中选择 一种系统文件类型 (例如 XML) 。

  5. 选择“ 创建 ”以保存自定义文件。

    系统将返回到 “选择文件类型” 页,并将新的自定义文件类型作为新磁贴插入。

    显示“选择文件类型”页上新的自定义文件类型磁贴的屏幕截图。

  6. 如果要更改或删除文件类型磁贴,请在新文件类型磁贴中选择 “编辑 ”。

  7. 选择“ 继续 ”以完成扫描规则集的配置。

忽略模式

Microsoft Purview 支持定义正则表达式 (正则表达式) ,以在扫描过程中排除资产。 在扫描期间,Microsoft Purview 会将资产的 URL 与这些正则表达式进行比较。 扫描时将忽略与上述任何正则表达式匹配的所有资产。

忽略模式” 边栏选项卡预填充 Spark 事务文件的一个正则表达式。 如果不需要,可以删除预先存在的模式。 最多可以定义 10 个忽略模式。

显示“忽略模式”边栏选项卡的屏幕截图,其中包含四个定义的正则表达式。第一个是预填充的 Spark 事务正则表达式,第二个是 \\.txt$,第三个是 \\.csv$,最后是 .folderB/.*。

在上面的示例中:

  • 正则表达式 2 和 3 将忽略扫描期间以 .txt 结尾的所有文件,并 .csv。
  • Regex 4 在扫描期间忽略 /folderB/ 及其所有内容。

下面是一些可用于忽略模式的更多提示:

  • 处理正则表达式时,Microsoft Purview 默认会将 $ 添加到正则表达式。

  • 若要了解扫描代理与正则表达式进行比较的 URL,一个好方法是浏览Microsoft Purview 数据目录,找到将来要忽略的资产,并在“ 概述 ”选项卡中查看其完全限定名称 (FQN) 。

    显示资产的“概述”选项卡上的完全限定名称的屏幕截图。

系统扫描规则集

系统扫描规则集是Microsoft定义的扫描规则集,这些规则集会自动为每个 Microsoft Purview 目录创建。 每个系统扫描规则集都与特定的数据源类型相关联。 创建扫描时,可以将其与系统扫描规则集相关联。 每次Microsoft对这些系统规则集进行更新时,都可以在目录中更新它们,并将更新应用于所有关联的扫描。

  1. 若要查看系统扫描规则集的列表,请在管理中心中选择“扫描规则集”,然后选择“系统”选项卡。

    显示系统扫描规则集列表的屏幕截图。

  2. 每个系统扫描规则集都有“名称”、“源类型”“版本”。 如果在“ 版本 ”列中选择扫描规则集的版本号,则会看到与当前版本和以前版本关联的规则 ((如果有任何) )。

    显示系统扫描规则集页的屏幕截图。

  3. 如果更新可用于系统扫描规则集,则可以在“版本”列中选择“更新”。 在系统扫描规则页中,从 “选择要更新的新版本” 下拉列表中选择版本。 该页提供与新版本和当前版本关联的系统分类规则列表。

    显示如何更改系统扫描规则集版本的屏幕截图。

将扫描与系统扫描规则集相关联

创建扫描时,可以选择将其与系统扫描规则集相关联,如下所示:

  1. “选择扫描规则集 ”页上,选择系统扫描规则集。

    显示如何为扫描选择系统扫描规则集的屏幕截图。

  2. 选择“ 继续”,然后选择“ 保存并运行”。