Поделиться через


Создание словаря ключевых слов

Microsoft Purview может идентифицировать, отслеживать и защищать конфиденциальные элементы. Для обнаружения конфиденциальных элементов иногда требуется поиск по ключевым словам, в частности при обнаружении стандартного контента (например, обмена данными, касающимися здравоохранения), а также неуместной или нецензурной лексики. Хотя вы можете создавать списки ключевое слово при создании пользовательских типов конфиденциальной информации, ключевое слово списки ограничены по размеру, и если вы создаете их в PowerShell, для их создания или изменения требуется изменение XML.

Напротив, словари ключевое слово обеспечивают более простое управление ключевыми словами и в гораздо большем масштабе, поддерживая до 1 МБ терминов (пост-сжатие) в словаре. Кроме того, ключевое слово словари могут поддерживать любой язык. Ограничение клиента также составляет 1МБ после сжатия. Ограничение после сжатия в 1 МБ означает, что все словари, объединенные в клиенте, могут содержать около миллиона символов.

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

Ограничения словаря ключевых слов

Вы можете создать до 50 типов конфиденциальной информации (SIT) для каждого клиента, который используется в словарях ключевое слово. Чтобы узнать, сколько словарей ключевое слово у вас есть в клиенте, выполните действия, описанные в разделе Подключение к PowerShell для обеспечения соответствия требованиям безопасности &, чтобы подключиться к клиенту, а затем запустите следующий сценарий PowerShell:

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Основные этапы создания словаря ключевых слов

Чаще всего ключевые слова для словаря компилируются в файл, например .csv или список .txt. Файл словаря передается в SIT во время создания, редактирования или импорта с помощью командлета PowerShell. Alternatley, вы можете начать с существующего или из существующего словаря ключевых слов. Наконец, ключевые слова можно ввести вручную в диалоговом окне Добавление словаря ключевое слово. При создании словаря ключевое слово выполните те же основные действия:

Создание словаря ключевое слово с помощью портала Microsoft Purview или портала соответствия требованиям Майкрософт

Чтобы создать или импортировать ключевые слова для пользовательского словаря, выполните следующие действия:

Выберите соответствующую вкладку для используемого портала. Дополнительные сведения о портале Microsoft Purview см. на портале Microsoft Purview. Дополнительные сведения о портале соответствия требованиям см. в разделе Портал соответствия требованиям Microsoft Purview.

  1. Войдите на портал Microsoft PurviewInformation Protection>Классификаторы>типы конфиденциальной информации.

  2. Выберите + Создать тип конфиденциальной информации , а затем введите имя и описание для типа конфиденциальной информации. Нажмите кнопку Далее.

  3. На странице Определение шаблонов для этого типа конфиденциальной информации выберите + Создать шаблон.

  4. В окне Новый шаблон выберите уровень достоверности.

  5. Выберите Добавить основной элемент и выберите Словарь ключевых слов.

  6. Во всплывающем окне Добавление словаря ключевое слово вы можете:

    1. Отправьте файл словаря в формате TXT или CSV .
    2. Выберите один из существующих словарей.
    3. или создайте новый словарь, введя ключевые слова вручную и присвоив ему имя.
  7. По-прежнему в окне Новый шаблон в поле Расположение символов укажите, на каком расстоянии (в количестве символов) должны быть обнаружены все вспомогательные элементы. Чем ближе основной и вспомогательный элементы находятся друг к другу, тем больше вероятность, что обнаруженное содержимое будет тем, что вы ищете.

  8. Добавьте вспомогательные элементы , которые нужно использовать, чтобы повысить точность определения того, что вы ищете.

  9. Добавьте дополнительные проверки и нажмите кнопку Создать.

  10. Нажмите кнопку Далее , чтобы продолжить создание типа конфиденциальной информации. По завершении нажмите кнопку Готово.

Создание словаря ключевых слов из файла с помощью PowerShell

Часто, когда вам нужно создать большой словарь, это позволяет использовать ключевые слова из файла или списка, экспортированного из другого источника. В следующем примере вы создадите словарь ключевое слово, содержащий список заболеваний для отображения во внешнем сообщении электронной почты. Для начала необходимо подключиться к PowerShell для обеспечения безопасности & соответствия требованиям.

  1. Скопируйте ключевые слова в текстовый файл и убедитесь, что каждый ключевое слово находится в отдельной строке.

  2. Сохраните текстовый файл с кодировкой Юникод. В Блокноте перейдите в раздел Сохранить как>кодировку>>Юникода.

  3. Считайте файл в переменную с помощью следующего командлета:

    $fileData = [System.IO.File]::ReadAllBytes('<filename>')
    
  4. Создайте словарь с помощью следующего командлета:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Использование словарей ключевых слов в типах конфиденциальной информации и политиках защиты от потери данных

Словари ключевых слов можно использовать как часть требований соответствия для пользовательских типов конфиденциальных данных или как сами эти типы. В обоих случаях необходимо создатьпользовательский тип конфиденциальных данных. Следуя инструкциям в связанной статье, создайте тип конфиденциальных данных. После получения XML-кода вам потребуется идентификатор GUID из XML, чтобы использовать словарь.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Чтобы получить идентификатор словаря, выполните следующую команду и скопируйте значение свойства Identity:

Get-DlpKeywordDictionary -Name "Diseases"

Выходные данные команды выглядят так:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

Вставьте значение удостоверения в XML-код для настраиваемого типа конфиденциальной информации в качестве idRef. Затем отправьте XML-файл. Теперь словарь появится в списке типов конфиденциальной информации, и вы можете использовать его прямо в политике, указав, сколько ключевых слов требуется для сопоставления.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Примечание.

Служба защиты информации Microsoft 365 поддерживает языки с двухбайтовой кодировкой:

  • Китайский (упрощенное письмо)
  • Китайский (традиционное письмо)
  • Корейский
  • Японский

Эта поддержка доступна для конфиденциальных типов информации. Дополнительные сведения см. в статье Заметки о выпуске: поддержка защиты информации для наборов двухбайтовых символов (предварительная версия).

Совет

Для выявления шаблонов, содержащих символы китайского или японского языков и однобайтовые символы, или шаблонов, содержащих элементы китайского/японского и английского языков, определите два варианта ключевого слова или регулярного выражения.

  • Например, для выявления такого ключевого слова, как "机密的document", используйте два варианта ключевого слова: один с пробелом между японским и английским текстом, а другой без пробела между японским и английским текстом. Поэтому в SIT следует добавить ключевые слова "机密的 document" и "机密的document". Аналогично, для выявления фразы "東京オリンピック2020" следует использовать два варианта: "東京オリンピック 2020" и "東京オリンピック2020".

Наряду с китайскими, японскими или двойными байтами, если список ключевых слов и фраз также содержит слова, отличные от китайского или японского языка (например, автономные слова на английском языке), необходимо создать два словаря или ключевое слово списков. Одно для ключевых слов, содержащих символы китайского/японского/двойного байта, а другое для английских слов.

  • Например, если вы хотите создать словарь или список ключевых слов с тремя фразами "Строго конфиденциально", "機密性が高" и "机密的документ", необходимо создать два списка ключевых слов.
    1. Строго конфиденциально
    2. 機密性が高い, 机密的документ и 机密的 документ

При создании регулярного выражения с использованием двухбайтового дефиса или двухбайтовой точки необходимо исключить оба этих символа точно так же, как из регулярных выражений исключаются дефис и точка. Пример регулярного выражения:

  • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

В списке ключевых слов рекомендуется использовать соответствие по строкам вместо соответствия по словам.