为基于精确数据匹配的敏感信息类型创建架构
提示
如果你不是 E5 客户,请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即在 Microsoft Purview 试用中心开始。 了解有关 注册和试用条款的详细信息。
适用对象
- 经典精确数据匹配 (EDM) 敏感信息类型 (SIT) 创建体验。
如果不熟悉基于 EDM 的 SITS 或其实现,则应熟悉:
单个 EDM 架构可用于使用同一敏感数据表的多种敏感信息类型。 最多可以在Microsoft 365 租户中创建 10 个不同的 EDM 架构。
使用精确数据匹配架构和敏感信息类型工具
可以使用此工具来帮助简化架构文件创建过程。
先决条件
- 执行 导出源数据以获取基于完全数据匹配的敏感信息类型中的步骤。
使用完全数据匹配架构和敏感信息类型模式工具
为正在使用的门户选择相应的选项卡。 根据 Microsoft 365 计划,Microsoft Purview 合规门户已停用或即将停用。
若要详细了解 Microsoft Purview 门户,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户。
登录到 Microsoft Purview 门户>信息保护>Classifiers>EDM 分类器>EDM 架构 (在新的 EMD 体验切换为“关闭”) 时可用。
选择 “创建 EDM 架构 ”以打开架构工具配置浮出控件。
填入相应的 名称 和 说明。
如果要对整个架构应用“忽略...”行为,请选择“忽略所有架构字段的分隔符和标点符号”。 有关将 EDM 配置为忽略大小写或分隔符的详细信息,请参阅 使用 caseInsensitive 和 ignoredDelimiters 字段 了解有关此功能的更多详细信息。
在 架构字段 #1 中填入所需值,并按需要添加新字段。 每个架构字段必须与敏感信息源文件中的列标题相同。
如果需要,请为以下项设置每字段值:
- 字段是可搜索的
- 字段不区分大小写
- 为此字段选择要忽略的分隔符和标点符号
- 为此字段输入自定义分隔符和标点符号
重要
必须将至少一个(但不超过十个)的架构字段指定为可搜索。
选择“保存”。 架构现已列出并可供使用。
重要
如果要删除已与 EDM SIT 关联的架构,必须先删除 EDM SIT。 删除具有与其关联的数据存储的架构也会在 24 小时内删除数据存储。
以 XML 格式导出 EDM 架构文件
如果在 EDM 架构工具中创建了 EDM 架构,则必须以 XML 格式导出架构文件。 需要 XML 文件才能完成 哈希并上传敏感信息源表,以便完全匹配敏感信息类型 阶段。
若要导出 EDM 架构文件,请使用以下语法:
$Schema = Get-DlpEdmSchema -Identity "[your EDM Schema name]" Set-Content -Path ".\Schemafile.xml" -Value $Schema.EdmSchemaXML
保存此文件以供以后使用。
手动创建并上传确切的数据匹配架构文件
创建架构文件时,列标题 (数据字段) 必须遵守以下命名要求:
- 必须以字母开头,并且必须至少包含三个字母数字字符。
- 必须仅包含字母数字字符。
对每个列/数据字段使用以下语法:
<Field name="FieldName" searchable="true/false" caseInsensitive="true/false" ignoredDelimiters="delimiter characters" />
使用 caseInsensitive 和 ignoredDelimiters 字段
下面的架构 XML 示例使用 caseInsensitive
和 ignoredDelimiters
字段。
caseInsensitive
在架构定义中包含设置为 的值的true
字段时,EDM 不会根据大小写差异排除项。 例如,EDM 将 字段的值 FOO-1234 和 fOo-1234 视为相同 PatientID
。
当包含支持字符的 ignoredDelimiters
字段时,EDM 会忽略这些字符。 因此,EDM 认为 FOO-1234 和 FOO#1234 的值与 PatientID
字段相同。
在此示例中,如果同时使用 caseInsensitive
和 ignoredDelimiters
,EDM 会将 FOO-1234 和 fOo#1234 视为相同,并将项目分类为患者记录敏感信息类型。
这两个参数都按字段使用。
重要
如果将 空格 配置为忽略,则只会对主字段列有效,并且定义可检测多字字符串的敏感信息类型。 否则,将针对要分析的内容中的每个单词进行比较。
标志 ignoredDelimiters
支持任何非字母数字字符,下面是一些示例:
- .
- -
- /
- _
- *
- ^
- #
- !
- ?
- [
- ]
- {
- }
- \
- ~
- ;
ignoredDelimiters
标志不支持:
- 字符 0-9
- A-Z
- a-z
- "
- ,
重要
定义 EDM 敏感信息类型时, ignoredDelimiters
不会影响与 EDM 模式中主要元素关联的分类敏感信息类型识别项目中的内容的方式。 因此,如果为可搜索字段进行配置 ignoredDelimiters
,则必须确保用于基于该字段的主元素的敏感信息类型将选取包含和不包含这些字符的字符串。
敏感信息源表中的列数和架构中的字段数必须匹配,顺序并不重要。
用作 标记分隔符 的字符的行为与其他分隔符不同。 下面是一些示例:
- \ (空格)
- \t
- ,
- .
- ;
- ?
- !
- \r
- \n
当包含 标记分隔符时,EDM 会中断分隔符所在的标记。 例如,EDM 将值“中间姓氏”和“中间姓氏”和“名称”作为字段。LastName
ignoredDelimiters
如果为LastName
字符为“-”的字段包括 ,则仅在值中断后执行该操作。 最后,EDM 会看到以下值 MiddleLast 和 Name。
若要将以下字符用作ignoredDelimiters
标记分隔符而不是标记分隔符,需要将匹配相应格式的 SIT 与 字段相关联。 例如,检测包含短划线的多字字符串的 SIT 需要与 LastName
字段相关联。
- .
- ;
- !
- ?
- \
可以使用 PowerShell 将 SIT 与辅助元素相关联。
定义 XML 格式的架构 (类似于以下示例) 。 将此架构文件 命名为edm.xml 然后对其进行配置,以便对于敏感信息源表中的每一列,都有一行使用 语法:
\<Field name="" searchable=""/\>
.- 将列名称用于字段名称值。
- 用于
searchable="true"
要搜索的字段和最多五个字段的主要字段。 必须至少有一个字段可搜索。
例如,以下 XML 文件定义了患者记录数据库的架构,其中五个字段指定为可搜索:
PatientID
、、MRN
、SSN
Phone
、 和DOB
。(可复制、修改和使用我们的示例。)
<EdmSchema xmlns="http://schemas.microsoft.com/office/2018/edm"> <DataStore name="PatientRecords" description="Schema for patient records" version="1"> <Field name="PatientID" searchable="true" caseInsensitive="true" ignoredDelimiters="-,/,*,#,^" /> <Field name="MRN" searchable="true" /> <Field name="FirstName" /> <Field name="LastName" /> <Field name="SSN" searchable="true" /> <Field name="Phone" searchable="true" /> <Field name="DOB" searchable="true" /> <Field name="Gender" /> <Field name="Address" /> </DataStore> </EdmSchema>
创建 XML 格式的 EDM 架构文件后,必须将其上传到云服务。
若要上传数据库架构,请运行以下命令:
New-DlpEdmSchema -FileData ([System.IO.File]::ReadAllBytes('.\\edm.xml')) -Confirm:$true
系统将提示你确认,如下所示:
“确认”
是否确实要执行此操作?
将导入数据存储“patientrecords”的新 EDM 架构。
[Y] 是 [A] 是至全部 [N] 否 [L] 否至全部 [?]帮助 (默认值为“Y”) :
提示
如果希望在未确认的情况下进行更改,请不要
-Confirm:$true
在步骤 3 中使用。
注意
为 EDMSchema 更新新增内容可能需要10-60 分钟。 更新必须完成,然后才能执行使用这些新增操作的步骤。