美国社会保险号 (SSN)

格式

9 位数字,可能采用格式化或无格式模式

注意

如果在 2011 年中旬前发布,则 SSN 具有强格式,即数字的某部分必须介于某个有效的范围中(但是没有校验和)。

模式

四个函数以四种不同模式查找 SSN:

  • Func_ssn 查找具有 2011 年之前的强格式的 SSN,这些 SSN 格式化为短划线或空格 (ddd-dd 或 ddd dd)
  • Func_unformatted_ssn 查找具有 2011 年之前的强格式的 SSN,这些 SSN 未格式化为 9 个连续数字 (ddd)
  • Func_randomized_formatted_ssn 查找 2011 年后的 SSN,这些 SSN 格式为短划线或空格 (ddd-dd 或 dd)
  • Func_randomized_unformatted_ssn 查找 2011 年后未格式化为 9 位连续数字的 SSN (ddddd)

校验和

关键字突出显示

支持

当敏感信息类型或可训练分类器的上下文摘要中支持关键字 (keyword) 突出显示时,在活动资源管理器的上下文摘要视图中,将突出显示文档中与策略匹配的关键字。

定义

如果 DLP 策略接近 300 个字符,则可以高可信度检测到此类敏感信息:

  • 函数 Func_ssn 找到与该模式匹配的内容。
  • 找到 Keyword_ssn 中的一个关键字。

DLP 策略在接近 300 个字符的情况下检测到此类敏感信息的置信度为中等:

  • 函数 Func_unformatted_ssn 找到与该模式匹配的内容。
  • 找到 Keyword_ssn 中的一个关键字。

DLP 策略在 300 个字符的邻近范围内检测到此类敏感信息的置信度较低:

  • 函数 Func_randomized_formatted_ssnFunc_randomized_unformatted_ssn 查找与模式匹配的内容。
  • 找到 Keyword_ssn 中的一个关键字。
<!-- U.S. Social Security Number (SSN) -->
  <Entity id="a44669fe-0d48-453d-a9b1-2cc83f2cba77" patternsProximity="300" recommendedConfidence="75">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="Func_ssn" />
        <Match idRef="Keyword_ssn" />
      </Pattern>
      <Pattern confidenceLevel="75">
        <IdMatch idRef="Func_unformatted_ssn" />
        <Match idRef="Keyword_ssn" />
      </Pattern>
      <Pattern confidenceLevel="65">
        <IdMatch idRef="Func_randomized_formatted_ssn" />
        <Match idRef="Keyword_ssn" />
      </Pattern>
      <Pattern confidenceLevel="55">
        <IdMatch idRef="Func_randomized_unformatted_ssn" />
        <Match idRef="Keyword_ssn" />
      </Pattern>
  </Entity>

关键字

Keyword_ssn

  • SSA 编号
  • social security number
  • 社会保障#
  • 社会保障#
  • 社会保障否
  • Social Security#
  • Soc Sec
  • SSN
  • SSNS
  • SSN#
  • SS#
  • SSID