为基于精确数据匹配的敏感信息类型哈希并上传敏感信息源表
本文介绍如何对敏感信息源表进行哈希处理和上传。
提示
如果你不是 E5 客户,请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即在 Microsoft Purview 试用中心开始。 了解有关 注册和试用条款的详细信息。
适用对象
哈希和上传敏感信息源表
在此阶段中,你将:
- 设置自定义安全组和用户帐户。
- (EDM) 上传代理工具设置精确数据匹配。
- 使用 EDM 上传代理工具以盐值对敏感信息源表进行哈希处理并上传。
可以使用 两台计算机方法 或 单计算机方法 对敏感数据进行 哈希处理和上传,如哈希和上传数据中所述。 最佳做法是使用两台计算机来分隔敏感数据的哈希和上传过程。 将步骤分隔到两台计算机有助于确保实际数据永远不会在由于连接到 Internet 而遭到入侵的计算机上以明文形式提供。 这也使隔离遇到的任何问题更容易识别。
先决条件
技术要求
- Microsoft 365 的工作或学校帐户。 此帐户必须添加到 EDM_DataUploaders 安全组。
- 具有以下操作系统之一的计算机。 此计算机运行 EDM 上传代理。
- Windows 11
- Windows 10
- 使用 .NET 版本 4.6.2 的Windows Server 2016
- Windows Server 2019
- Windows Server 2022
- 用于上传数据的计算机上的目录。 此目录包含:
- EDM 上传代理。
-
.csv、.tsv 或管道 (中的敏感信息数据文件 |) 格式。 默认情况下,EDM 上传代理要求数据文件采用 .csv 格式。
> [!提示]
可以通过指示“ (Tab) ”或“ (|”,将文件与由选项卡或管道分隔的数据 (而不是逗号) 使用
/ColumnSeparated
参数) “选项。 例如:EdmUploadAgent.exe /UploadData /DataStoreName PatientRecords /DataFile C:\Edm\Hash\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5
- 输出具有 完成哈希过程时创建的 和 salt 文件。
-
edm.xml 文件中的数据存储名称。 我们的示例使用
PatientRecords
。
安全组和用户帐户要求
将一个或多个用户添加到 EDM_DataUploaders 安全组。 (这些用户是管理敏感信息数据库的用户。)
精确数据匹配架构
如果为新体验使用了 EDM 架构和敏感信息类型工具或经典体验的 EDM 敏感信息类型/规则包,则必须下载该架构以对敏感信息源表进行哈希处理。 有关详细信息,请参阅 以 XML 格式导出 EDM 架构文件。
若要下载此 EDM 架构,请打开命令提示符窗口并运行以下命令:
EdmUploadAgent.exe /SaveSchema /DataStoreName <schema name> /OutputDir <path to output folder>
数据格式设置要求
在对敏感数据进行哈希处理和上传之前,请运行搜索表中可能导致分析内容出现问题的任何特殊字符。
可以通过使用以下语法使用 EDM 上传代理来验证表的格式是否合适:
EdmUploadAgent.exe /ValidateData /DataFile [data file] /Schema [schema file]
常见的格式设置问题
- 列数不匹配: 此问题可能是由于 EDM 解释为列分隔符的表中的值中存在逗号或引号字符。 除非它们围绕整个值,否则单引号和双引号可能会导致工具错误地指示单个列的开始和结束。
- 值内的单引号字符或逗号: 例如,如果某人的姓名包含单引号(如 Tom O'Neil ),或者城市的名称以 “ s-Gravenhage” 等撇号开头,则需要修改用于生成敏感信息表的数据导出过程,并使用双引号将此类列括起来。
- 值内的双引号字符: 最佳做法是对表使用制表符分隔格式。 制表分隔表不太容易受到此类问题的影响。
哈希和上传数据
敏感信息源表的格式为明文。 通过将一台计算机用于哈希步骤,将另一台计算机用于上传步骤,可以保护数据不会在与 Microsoft 365 租户直接连接的计算机上以明文形式公开。
重要
此方法要求必须在 两台计算机上安装相同版本的 EDM 上传代理。 然后,可以将哈希文件和 salt 文件从安全计算机复制到可直接连接到 Microsoft 365 租户的计算机。
在安全环境中的计算机上,在命令提示符窗口中运行以下命令:
EdmUploadAgent.exe /CreateHash /DataFile [data file] /HashLocation [hash file location] /Schema [Schema file] /AllowedBadLinesPercentage [value]
例如:EdmUploadAgent.exe /CreateHash /DataFile C:\Edm\Data\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5
如果未指定 /
Salt <saltvalue>
选项,这将输出具有以下扩展名的哈希文件和 salt 文件:- EdmHash
- EdmSalt
安全地将这些文件复制到用于上传敏感信息源表的计算机, (例如, PatientRecords.csv) 到租户。
授权 EDM 上传代理:
- 以管理员身份打开命令提示符窗口。
- 切换到安装 EDM 上传代理的目录。 (建议的目录为 C:\EDM\Data.)
- 运行以下命令:
EDM Upload Agent.exe /Authorize
重要
必须从安装 EDM 上传代理的文件夹运行该代理,并且必须指定数据文件的完整路径。
使用工作或学校Microsoft 365 帐户登录。 (添加到 EDM_DataUploaders 安全组) 的帐户。 将从用户帐户提取你的租户信息以建立连接。
若要上传哈希数据,请在命令提示符窗口中运行以下命令:
EdmUploadAgent.exe /UploadHash /DataStoreName \<DataStoreName\> /HashFile \<HashedSourceFilePath\ /ColumnSeparator ["{Tab}"|"|"]
例如:
EdmUploadAgent.exe /UploadHash /DataStoreName PatientRecords /HashFile C:\\Edm\\Hash\\**PatientRecords.EdmHash**
若要验证敏感数据上传是否成功,请在命令提示符窗口中运行以下命令:
EdmUploadAgent.exe /GetDataStore
如果上传成功,则会显示数据存储的列表以及上次更新的时间。
若要显示上传到特定存储区的所有数据,并在更新这些数据时,请在命令提示符窗口中运行以下命令:
EdmUploadAgent.exe /GetSession /DataStoreName <DataStoreName>
提示
若要在首次创建哈希后自动执行哈希和上传过程,请参阅 刷新完全数据匹配敏感信息源表文件。
EDM 和双字节字符集语言
精确数据匹配支持双字节字符,例如中文、日语和韩语中使用的字符。 但是,它不支持编码为双字节字符的确证证据的字符串匹配。 它也不与在分类内容中检测到的多标记 CJK 文本匹配,除非如本文档后面所述启用了 EDM 全球化。 在所有情况下,对于主字段和确凿证据字段,SIT 都必须映射到任何多标记文本。
若要调用双字节字符的确切数据匹配,请执行以下步骤:
- 创建 EDM 敏感信息类型 (SIT) 配置为在双字节字符集语言(如日语汉字)上匹配。
- 确保下载并安装版本 17.01.0495.0 (或更高版本的 EDM 上传代理)
- 将 EdmUploadAgent.exe.config 文件的全球化参数更新为 true:
<add key=" IsGlobalizationEnabled" value="true">
- 使用要匹配的数据对源表进行哈希处理和上传。
后续步骤
对于新体验: 测试完全数据匹配敏感信息类型
对于经典体验: 创建完全数据匹配敏感信息类型/规则包