识别澳大利亚政府符合 PSPF 的敏感和安全机密信息

本文为澳大利亚政府组织提供有关使用 Microsoft Purview 识别敏感和安全机密信息的指南。 其宗旨是帮助此类组织加强其数据安全方法和遵守保护 性安全策略框架 (PSPF) 信息安全手册 (ISM) 中所述的要求的能力。

保护信息并防止数据丢失的关键是首先了解什么是信息。 本文探讨跨组织标识信息的方法,Microsoft 365 环境。 这些方法通常称为了解 purview Microsoft 数据 方面。 识别后,可以通过 敏感度自动标记数据丢失防护 (DLP) 来保护信息。

敏感信息类型

敏感信息类型 (SCT) 是基于模式的分类器。 它们通过正则表达式 (正则表达式) 或关键字来检测敏感信息。

有许多不同类型的 SCT 与澳大利亚政府组织相关:

  • 由 Microsoft 创建的预生成 SITS,其中一些与常见的澳大利亚数据类型保持一致。
  • 自定义 SCT 是根据组织要求创建的。
  • 命名实体 SCT 包括基于字典的复杂标识符,例如 澳大利亚物理地址。
  • 根据实际敏感数据生成精确数据匹配 (EDM) SIT
  • 文档指纹 SIT 基于文档的格式,而不是其内容。
  • 与网络或信息安全相关的 SIT 虽然在技术上是预构建的 SIT,但它们与为澳大利亚政府组织工作的网络团队具有特殊相关性,因此值得属于他们自己的类别。

预生成敏感信息类型

预生成的敏感信息类型基于客户通常认为敏感的常见信息类型。 这些帐户可以是泛型的, (具有全局相关性,例如,) 信用卡号码,或具有本地相关性 (例如澳大利亚银行帐号) 。

可在敏感信息类型实体定义中找到预生成 SCT Microsoft的完整列表

澳大利亚特定的 SCT 包括:

可以在 Microsoft Purview 数据分类门户的 分类器>敏感信息类型下找到这些 SIT。

预生成 SCT 对于开始其信息保护或治理旅程的组织很有价值,因为它们为启用 DLP 和自动标记等功能提供了一个先入手。 使用这些 SCT 的两种最简单方法是:

  1. 通过 DLP 策略模板使用预生成的 SIT

    Microsoft创建的 DLP 策略模板中包含一些预生成的 SCT,这些模板符合澳大利亚法规。 以下符合澳大利亚要求的 DLP 策略模板可供使用:

    • 增强的澳大利亚隐私法案
    • 澳大利亚财务数据
    • PCI 数据安全标准 (PCI DSS)
    • 澳大利亚个人身份信息 (PII) 数据

    基于这些模板启用 DLP 策略允许对数据丢失事件进行初始监视,这为引入 Microsoft 365 DLP 的组织提供了很好的起点。 部署后,这些策略可深入了解组织数据丢失问题的程度,并有助于推动后续步骤的决策。

    限制敏感信息的分发方面,将进一步探讨如何使用这些策略模板。

  2. 在敏感度自动标记中使用预生成的 SCT

    如果检测到某个项目包含澳大利亚医疗帐号、一个或多个医疗术语和全名,则假定该项目包含个人身份的医疗信息并可能构成健康记录是公平的。 基于此假设,我们可以向用户建议将项目标记为“官方:敏感个人隐私”,或组织中最适合用于标识和保护健康记录的标签。

    有关此功能可帮助政府组织满足 PSPF 合规性的详细信息,请参阅 自动应用敏感度标签适用于澳大利亚政府的基于客户端的自动标记方案

自定义敏感信息类型

除了预生成的 SIT 外,组织还可以根据自己的敏感信息定义创建 SCT。 可通过自定义 SIT 识别的与澳大利亚政府组织相关的信息示例包括:

  • 保护标记
  • 清关 ID 或清关应用程序 ID
  • 来自其他州或地区的分类
  • 不应出现在平台上的分类 (例如 TOP SECRET)
  • 部长简报或信件
  • 信息自由 (FOI) 请求编号
  • Probity 相关信息
  • 与敏感系统、项目或应用程序相关的术语
  • 段落标记
  • 剪裁或目标记录编号

自定义 SIT 由主要标识符组成,该标识符可以基于正则表达式或关键字、置信度级别和可选的支持元素。

有关 SCT 及其组件的更详细说明,请参阅 了解敏感信息类型

正则表达式 (正则表达式)

正则表达式是基于代码的标识符,可用于标识信息模式。 例如,如果信息自由 (FOI) 数字由字母 FOI 组成,后跟一个四位数年份、一个连字符和一个另外三位数字 (例如 FOI2023-123 ,) ,则它可以用以下正则表达式表示:

[Ff][Oo][Ii]20[01234]\d{1}-\d{3}

若要解释此表达式,请:

  • [Ff][Oo][Ii] 匹配大写或小写字母 F、O 和 I。
  • 20 匹配数字 20 作为四位数年份的前半部分。
  • [0123] 匹配四位数年份值中第三位数字中的 0、1、2 或 3,这使我们能够匹配 2000 年至 2039 年的 FOI 数字。
  • - 匹配连字符。
  • \d{3} 匹配任意三位数字。

提示

Copilot 非常擅长生成正则表达式 (正则表达式) 。 可以使用自然语言要求 Copilot 为你生成正则表达式。

关键字列表或关键字 (keyword) 字典

关键字列表和字典由字词、术语或短语组成,这些字词或短语可能包含在要标识的项中。 内阁简报招标申请 是可能用作关键字的术语。

关键字可能区分大小写或不区分大小写。 事例可用于消除误报。 例如,小写 official 更有可能用于一般会话,但大写 OFFICIAL 更有可能成为保护标记的一部分。

包含大型数据集的关键字字典也可以通过 CSVTXT 格式上传。 有关如何上传关键字 (keyword) 字典的详细信息,请参阅如何创建关键字 (keyword) 字典。

置信度

某些关键字或正则表达式可以提供准确的匹配,而无需进行优化。 值前面的示例中所包含的信息自由 (FOI) 表达式不太可能出现在一般对话中,并且当它出现在通信中时,很可能与相关信息匹配。 但是,如果我们试图匹配澳大利亚公共服务员工号码(以八位数字表示),我们的匹配可能会导致大量误报。 置信度允许我们分配一种可能性,即电子邮件或文档等项中存在关键字 (keyword) 或模式实际上是我们想要查找的内容。 有关置信度的详细信息,请参阅 管理置信度。

主要元素和支持元素

自定义 SCT 还具有主元素和支持元素的概念。 主要元素是我们想要在内容中检测的关键模式。 可以将支持元素添加到主元素中,以生成一个准确匹配的值的出现案例。 例如,如果尝试根据 8 位数字的员工编号进行匹配,可以使用“员工编号”或“澳大利亚政府编号 AGS”或“澳大利亚公共服务员工数据库 APSED ”的关键字作为支持元素,以提高匹配相关的置信度。 有关如何创建主要元素和支持元素的详细信息,请参阅 了解元素。

字符邻近感应

我们通常在 SIT 中配置的最后一个值是字符邻近性。 这是主要元素和支持元素之间的距离。 如果预期关键字 (keyword) AGS接近八位数字,则配置 10 个字符的邻近度。 如果主要元素和支持元素不太可能显示在一起,则将 邻近值 设置为更大的字符数。 有关如何创建字符邻近度的详细信息,请参阅 了解邻近感应。

用于识别保护性标记的 SCT

澳大利亚政府组织利用自定义 SCT 的一种宝贵方法是识别保护性标记。 在 Greenfield 组织中,环境中的所有项都应用了敏感度标签。 但是,大多数政府组织都有需要现代化以Microsoft Purview 的旧标签。 SCT 用于标识和应用标记:

  • 已标记的旧文件
  • 外部实体生成的已标记文件
  • 在外部启动并标记Email对话
  • (x 标头) 丢失标签信息的电子邮件
  • 错误地降级了标签的电子邮件

识别出此类标记后,将通知用户进行检测,并向其提供标签建议。 如果他们接受建议,则基于标签的保护将应用于项目。 这些概念在 澳大利亚政府的基于客户端的自动标记方案中进一步讨论。

基于分类的 SIT 在 DLP 中也很有用。 示例包括:

  • 用户通过标记接收信息并将其标识为敏感信息,但不希望将其重新分类,因为它不会转换为 PSPF 分类 (例如“官方敏感新南威尔士州政府”) 。 构造 DLP 策略以基于标记而不是应用的标签来保护封闭的信息意味着我们可以对其应用数据安全性的度量值。
  • 用户从电子邮件对话复制文本,其中包括保护性标记。 他们将信息粘贴到与不应有权访问信息的外部参与者的 Teams 聊天中。 通过应用于 Teams 服务的 DLP 策略,可以检测到标记并防止泄露。
  • 用户错误地将电子邮件对话上的敏感度标签降级 (恶意或用户错误) 。 由于以前应用于电子邮件的保护标记在电子邮件正文中可见,Microsoft Purview 检测到当前标记和以前的标记未对齐。 根据配置,操作会记录事件、警告用户或阻止电子邮件。
  • 标记的电子邮件将发送给使用非企业电子邮件平台或客户端的外部收件人。 平台或客户端会删除电子邮件的元数据 (x 标头) 这会导致外部收件人的回复电子邮件在到达组织的用户邮箱时没有应用敏感度标签。 通过 SIT 检测上一个标记允许以透明方式重新应用标签,或建议用户在下次回复时重新应用标签。

在上述每种方案中,基于分类的 SCT 都可用于检测应用的保护性标记并缓解潜在的数据泄露。

用于检测保护性标记的示例 SIT 语法

以下正则表达式可用于自定义 SCT 来标识保护性标记。

重要

创建 SCT 以识别保护性标记有助于符合 PSPF。 基于分类的 SIT 也用于 DLP 和自动标记方案。

SIT 名称 正则表达式
UNOFFICIAL Regex1 UNOFFICIAL
官方正则表达式1,2 (?<!UN)OFFICIAL
官方敏感正则表达式1,3,4,5 OFFICIAL[:- ]\s?Sensitive(?!(?:\s\|\/\/\|\s\/\/\s)[Pp]ersonal[- ][Pp]rivacy)(?!(?:\s\|\/\/\|\s\/\/\s)[Ll]egislative[- ][Ss]ecrecy)(?!(?:\s\|\/\/\|\s\/\/\s)[Ll]egal[- ][Pp]rivilege)(?!(?:\s\|\/\/\|\s\/\/\s)NATIONAL[ -]CABINET)
官方敏感个人隐私正则表达式1,4,5 OFFICIAL[:- ]\s?Sensitive(?:\s\|\/\/\|\s\/\/\s\|,\sACCESS=)Personal[ -]Privacy
官方敏感法律特权正则表达式1,4,5 OFFICIAL[:- ]\s?Sensitive(?:\s\|\/\/\|\s\/\/\s\|,\sACCESS=)Legal[ -]Privilege
官方敏感立法保密正则表达式1,4,5 OFFICIAL[:- ]\s?Sensitive(?:\s\|\/\/\|\s\/\/\s\|,\sACCESS=)Legislative[ -]Secrecy
官方敏感国家内阁正则表达式1,4,5 OFFICIAL[:- ]\s?Sensitive(?:\s\|\/\/\|\s\/\/\s\|,\sCAVEAT=SH:)NATIONAL[ -]CABINET
受保护的正则表达式1,3,5 PROTECTED(?!,\sACCESS=)(?!(?:\s\|\/\/\|\s\/\/\s)[Pp]ersonal[- ][Pp]rivacy)(?!(?:\s\|\/\/\|\s\/\/\s)[Ll]egislative[- ][Ss]ecrecy)(?!(?:\s\|\/\/\|\s\/\/\s)[Ll]egal[- ][Pp]rivilege)(?!(?:\s\|\/\/\|\s\/\/\s)NATIONAL[ -]CABINET)(?!(?:\s\|\/\/\|\s\/\/\s)CABINET)
受保护的个人隐私正则表达式1,5 PROTECTED(?:\s\|\/\/\|\s\/\/\s\|,\sACCESS=)Personal[ -]Privacy
PROTECTED Legal Privilege Regex1,5 PROTECTED(?:\s\|\/\/\|\s\/\/\s\|,\sACCESS=)Legal[ -]Privilege
受保护的立法保密正则表达式1,5 PROTECTED(?:\s\|\/\/\|\s\/\/\s\|,\sACCESS=)Legislative[ -]Secrecy
受保护的国家内阁正则表达式1,5 PROTECTED(?:\s\|\/\/\|\s\/\/\s\|,\sCAVEAT=SH:)NATIONAL[ -]CABINET
受保护的 CABINET 正则表达式1,5 PROTECTED(?:\s\|\/\/\|\s\/\/\s\|,\sCAVEAT=SH:)CABINET

评估前面的 SIT 示例时,请注意以下表达式逻辑:

  • 1 这些表达式匹配应用于两个文档的标记 (例如 ,官方:敏感国家内阁) 和电子邮件 (例如'[SEC=OFFICIAL:Sensitive,CAVEAT=NATIONAL-CABINET]') 。
  • 2 官方正则表达式 () (?<!UN) 的负面外观防止将非官方项目匹配为官方项目。
  • 3官方敏感正则表达式受保护正则表达式 使用负 ((?!)) ,以确保安全分类后不会应用信息管理标记 (IMM) 或警告。 这有助于防止将具有 IMM 或警告的项目标识为分类的非 IMM 或警告版本。
  • 4[:\- ]官方中使用:敏感旨在实现此标记格式的灵活性,并且由于 x 标头中使用冒号字符,因此非常重要。
  • 5(?:\s\|\/\/\|\s\/\/\s) 用于标识标记组件之间的空格,并允许单空格、双空格、双正斜杠或带空格的双正斜杠。 这是为了允许澳大利亚政府组织之间对 PSPF 标记格式的不同解释。

命名实体敏感信息类型

命名实体 SCT 是由 Microsoft 创建的复杂字典和基于模式的标识符,可用于检测如下信息:

  • 人员的名称
  • 物理地址
  • 医疗条款和条件

命名实体 SCT 可以单独使用,但也可用作支持元素。 例如,电子邮件中存在的医学术语可能不可用于指示项目包含敏感信息。 但是,当医学术语与可能指示客户或患者号码以及名字和姓氏的值配对时,将强烈指示该项目是敏感的。

将命名实体 SCT 与其他值配对的示例。

命名实体 SCT 可与自定义 SCT 配对,用作支持元素,甚至可以包含在 DLP 策略中的其他 SCT 中。

有关命名实体 SCT 的详细信息,请参阅 了解命名实体

精确数据与敏感信息类型匹配

根据实际数据生成精确数据匹配 (EDM) SIT。 由于与其他数值(如电话号码)存在冲突,因此很难通过标准 SCT 匹配数值(如数字客户 ID)。 支持元素改进匹配有助于减少误报。

精确数据匹配 可帮助拥有系统(其中包含与员工、客户或公民相关的数据)的澳大利亚政府组织准确识别此信息。

有关实现 EDM SIT 的详细信息,请参阅 了解基于精确数据匹配的敏感信息类型

文档指纹识别

文档指纹识别是一种信息识别技术,它不是查找项中包含的值,而是查看项的格式和结构。 从本质上讲,这允许将标准表单转换为可用于标识信息的敏感信息类型。

政府组织可以使用内容识别的文档指纹方法来识别通过其他组织或公众提交的工作流或表单生成的项目。

有关实现文档指纹的信息,请参阅文档指纹。

除了识别安全机密信息或其他敏感信息之外,SCT 还有很多用途。 其中一种用法是检测凭据。 为以下凭据类型提供了预生成的 SIT:

  • 用户登录凭据
  • Microsoft Entra ID客户端访问令牌
  • Azure Batch共享访问密钥
  • Azure 存储帐户共享访问签名
  • 客户端机密/API 密钥

这些预生成的 SIT 独立使用,并且也捆绑到称为“所有凭据”的 SIT 中。所有凭据 SIT 对于在以下领域使用它的网络团队非常有用:

  • 用于识别和防止恶意用户或外部攻击者进行横向移动的 DLP 策略。
  • 自动标记策略,用于对不应包含凭据的项目应用加密,将用户锁定在文件外并允许修正操作开始。
  • DLP 策略,用于防止用户根据组织策略与其他用户共享其凭据。
  • 突出显示存储在 SharePoint 或 Exchange 位置中的项,这些项不恰当地保留凭据信息。

IPv4 和 IPv6) 的网络地址 (也存在预生成的 SIT,可用于保护包含网络信息的项,或防止用户通过电子邮件、Teams 聊天或频道消息共享 IP 地址。

可训练分类器

可训练分类器 是可以训练以识别敏感信息的机器学习模型。 与 SCT 一样,Microsoft提供预先训练的分类器。 下表列出了与澳大利亚政府组织相关的预先训练分类器的摘录:

分类器类别 可训练分类器示例
金融 银行对账单、预算、财务审计报告、财务报表、税务、帐目表、预算估算 (BE) 、业务活动报表 (BAS) 。
商业版 操作程序、保密协议、采购、项目代码字眼、参议院估计 (SE) 、关于通知的问题 (QoN) 。
人力资源 简历、员工纪律处分文件、就业协议、澳大利亚政府安全审查机构 (AGSVA) 许可、高等教育贷款计划 (帮助) 、军人身份证、外国工作授权 (FWA) 。
医疗 医疗保健、医疗表单、MyHealth 记录。
法律 法律事务、协议、许可协议。
专门的 软件开发文件、项目文档、网络设计文件。
行为 冒犯性语言,亵渎,威胁,有针对性的骚扰,歧视,监管串通,客户投诉。

政府组织如何使用这些预生成的分类器的一些示例包括:

  • 业务规则可能规定,HR 类别中的某些项目(如简历)应标记为“官方:敏感个人隐私”,因为其中包含敏感个人信息。 对于这些项目,可以通过 基于客户端的自动标记来配置标签建议。
  • 应仔细处理网络设计文件,尤其是安全网络设计文件,以避免泄露。 这些策略可能值得使用 PROTECTED 标签,或者至少是 DLP 策略,以防止未经授权泄露给未经授权的用户。
  • 行为分类器很有趣,尽管它们可能与保护性标记或 DLP 要求没有直接关联,但它们仍然可以具有高业务价值。 例如,HR 团队可能会收到发生骚扰的通知和/或通过 通信合规性筛选标记的通信的能力。

组织还可以训练自己的分类器。 可以训练分类器,为其提供一组正样本和负样本。 分类器处理示例并生成预测模型。 训练完成后,分类器可用于应用敏感度标签、通信合规性策略和保留标记策略。 在 DLP 策略中使用分类器以预览版提供。

有关可训练分类器的详细信息,请参阅 了解可训练分类器

使用已识别的敏感信息

通过 SIT 或分类器 (通过了解 Microsoft Purview) 的数据 方面来识别信息后,我们可以利用此知识帮助我们完成 Microsoft 365 信息管理的其他三个支柱,即:

  • 保护数据,
  • 防止数据丢失,以及
  • 管理数据。

下表提供了有关包含敏感信息的项的知识如何帮助跨 Microsoft 365 平台管理信息的好处和示例:

功能 使用示例
数据丢失防护 通过降低数据泄漏风险来协助管理。
敏感度标记 建议应用适当的敏感度标签。 标记后,标签相关保护将应用于信息。
保留标记 自动应用保留标签,从而满足存档或记录管理要求。
内容资源管理器 查看包含敏感信息的项目在 Microsoft 365 服务(包括 SharePoint、Teams、OneDrive 和 Exchange)中的驻留位置。
内部风险管理 监视围绕敏感信息的用户活动,根据行为建立用户风险级别,并将可疑行为上报给相关团队。
通信合规性 屏幕高风险通信,包括包含敏感或可疑内容的任何聊天或电子邮件。 通信合规性有助于确保澳大利亚政府履行廉正义务。
Microsoft Priva 检测敏感信息(包括 OneDrive 等位置的个人数据)的存储,并指导用户正确存储信息。
电子数据展示 将敏感信息作为 HR 或 FOI 流程的一部分进行显示,并将保留应用于可能属于活动请求或调查的一部分的信息。

内容资源管理器

Microsoft 365 内容资源管理器 使合规性、安全性和隐私官员能够快速而全面地了解敏感信息在 Microsoft 365 环境中所处的位置。 此工具允许授权用户按信息类型浏览位置和项目。 该服务索引和显示驻留在 Exchange、OneDrive 和 SharePoint 中的项。 位于 Teams 基础 SharePoint 团队网站中的项也可见。

通过此工具,我们可以选择敏感信息类型或敏感度标签,查看每个Microsoft 365 服务中与其一致的项数:

内容资源管理器中政府分类的屏幕截图。

内容资源管理器可以提供有关安全分类项或其他敏感项在环境中驻留的位置的宝贵见解。 通过本地系统不太可能实现对信息位置的这种合并视图。

对于 包含组织帐户中不允许的标签 的组织 (例如,SECRET 或 TOP SECRET) 以及应用标签的相关自动标记策略,则 内容资源管理器 可以找到不应存储在平台上的信息。 由于内容资源管理器还可以显示 SNET,因此可以通过 SCT 实现类似的方法来 识别保护性标记

有关内容资源管理器的详细信息,请参阅 内容资源管理器入门