키워드 사전 만들기

아티클
10/30/2024

Microsoft Purview는 중요한 항목을 식별, 모니터링 및 보호할 수 있습니다. 중요한 항목을 식별하려면 키워드를 찾아야 하는 경우가 있으며, 특히 의료 관련 통신과 같은 일반 컨텐츠 또는 부적절하거나 명시적인 언어를 식별해야 합니다. 사용자 지정 중요한 정보 유형을 만들 때 키워드(keyword) 목록을 만들 수 있지만 키워드(keyword) 목록은 크기가 제한되며 PowerShell에서 만드는 경우 XML을 수정하여 만들거나 편집해야 합니다.

반면, 키워드(keyword) 사전은 키워드를 보다 간단하게 관리하고 훨씬 더 큰 규모로 제공하여 사전에서 최대 1MB의 용어(압축 후)를 지원합니다. 또한 키워드(keyword) 사전은 모든 언어를 지원할 수 있습니다. 테넌트 제한도 압축 후에 1 MB가 됩니다. 1MB의 압축 후 제한은 테넌트 간에 결합된 모든 사전이 100만 개에 가까운 문자를 가질 수 있음을 의미합니다.

팁

E5 고객이 아닌 경우 90일 Microsoft Purview 솔루션 평가판을 사용하여 조직이 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 도움이 되는 추가 Purview 기능을 살펴보세요. Microsoft Purview 평가판 허브에서 지금 시작합니다. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.

키워드 사전 제한

키워드(keyword) 사전에 사용되는 테넌트당 최대 50개의 중요한 정보 유형(SIT)을 만들 수 있습니다. 테넌트에서 키워드(keyword) 사전 수를 확인하려면 보안 & 준수 PowerShell에 연결의 절차에 따라 테넌트에 연결한 다음 이 PowerShell 스크립트를 실행합니다.

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

키워드 사전을 만드는 기본 단계

가장 일반적으로 .csv 또는 .txt 목록과 같은 파일에서 사전에 대한 키워드를 컴파일합니다. PowerShell cmdlet을 통해 사전 파일을 만들거나 편집하거나 가져오는 동안 SIT에 사전 파일을 업로드합니다. Alternatley는 기존 키 워드 사전 또는 기존 키워드 사전에서 시작할 수 있습니다. 마지막으로 키워드(keyword) 사전 추가 대화 상자에서 수동으로 키워드를 입력할 수 있습니다. 키워드(keyword) 사전을 만들 때 동일한 핵심 단계를 수행합니다.

Microsoft Purview 포털 또는 Microsoft 규정 준수 포털을 사용하여 키워드(keyword) 사전 만들기

사용자 지정 사전에 대한 키워드를 만들거나 가져오려면 다음 단계를 사용합니다.

사용 중인 포털에 해당하는 탭을 선택합니다. Microsoft 365 플랜에 따라 Microsoft Purview 규정 준수 포털 사용 중지되거나 곧 사용 중지됩니다.

Microsoft Purview 포털에 대해 자세히 알아보려면 Microsoft Purview 포털을 참조하세요. 규정 준수 포털에 대한 자세한 내용은 Microsoft Purview 규정 준수 포털을 참조하세요.

Microsoft Purview 포털
규정 준수 포털

Microsoft Purview 포털Information Protection>Classifiers중요한 정보 유형에 로그인합니다>.
+ 중요한 정보 유형 만들기를 선택한 다음 중요한 정보 유형에 대한 이름 및 설명을 입력합니다. 다음을 선택합니다.
이 중요한 정보 유형에 대한 패턴 정의 페이지에서 + 패턴 만들기를 선택합니다.
새 패턴 창에서 신뢰도 수준을 선택합니다.
기본 요소 추가를 선택하고 키워드 사전을 선택합니다.
키워드(keyword) 사전 플라이아웃 추가에서 다음을 수행할 수 있습니다.
1. 사전 파일을 TXT 또는 CSV 형식으로 업로드합니다.
2. 기존 사전 중에서 선택합니다.
3. 또는 키워드를 수동으로 입력하고 이름을 지정하여 새 사전을 만듭니다.
새 패턴 창에서 문자 근접의 경우 지원 요소를 검색해야 하는 거리(문자 수)를 지정합니다. 기본 요소와 지원 요소가 서로 가까울수록 검색된 콘텐츠가 원하는 내용이 될 가능성이 높아집니다.
원하는 항목을 검색하는 정확도를 높이기 위해 사용하려는 지원 요소를 추가합니다.
추가 검사를 추가한 다음 만들기를 선택합니다.
다음을 선택하여 중요한 정보 유형을 계속 만듭니다. 완료되면 완료를 선택합니다.

PowerShell을 사용하여 파일에서 키워드 사전 만들기

대용량 사전을 만들어야 하는 경우가 종종 있으므로 파일 또는 다른 원본에서 내보낸 목록의 키워드를 사용할 수 있습니다. 다음 예제에서는 외부 전자 메일에서 차단할 질병 목록을 포함하는 키워드(keyword) 사전을 만듭니다. 시작하려면 보안 & 준수 PowerShell에 연결해야 합니다.

키워드를 텍스트 파일에 복사하고 각 키워드(keyword) 별도의 줄에 있는지 확인합니다.
유니코드 인코딩을 사용하여 텍스트 파일을 저장합니다. 메모장에서 인코딩>유니코드로 저장으로> 이동합니다>.
다음 cmdlet을 실행하여 파일을 변수로 읽습니다.
```
$fileData = [System.IO.File]::ReadAllBytes('<filename>')
```

다음 cmdlet을 실행하여 사전을 만듭니다.

New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData

사용자 지정 중요한 정보 유형과 DLP 정책에서 키워드 사전 사용

키워드 사전은 사용자 정의 중요한 정보 유형에 대한 일치 요구 사항의 일부로 사용하거나 중요한 정보 유형 자체로 사용할 수 있습니다. 둘 다 사용자 지정 중요한 정보 유형을(를) 생성해야 합니다. 링크된 문서의 지침에 따라 중요한 정보 유형을 만듭니다. XML이 있으면 사전을 사용하려면 XML의 GUID 식별자가 필요합니다.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

사전의 ID를 확인하려면 다음 명령을 실행하고 Identity 속성 값을 복사합니다.

Get-DlpKeywordDictionary -Name "Diseases"

이 명령의 출력은 다음과 같습니다.

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

ID 값을IDRef로 사용자 지정 중요한 정보 형식의 XML에 붙여넣습니다. 다음으로 XML 파일을 업로드합니다. 이제 중요한 정보 유형 목록에 사전이 표시되며, 일치하는 데 필요한 키워드 수를 지정하여 정책에서 바로 사용할 수 있습니다.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

참고

Microsoft 365 Information Protection은 다음의 더블 바이트 문자 집합 언어를 지원합니다.

중국어(간체)
중국어(번체)
한국어
일본어

이 지원은 중요한 정보 유형에 대해 사용할 수 있습니다. 자세한 정보는 더블 바이트 문자 집합 릴리스 정보(미리 보기)에 대한 정보 보호 지원을 참조하세요.

팁

중국어/일본어 문자와 단일 바이트 문자가 포함된 패턴을 검색하거나 중국어/일본어 및 영어가 포함된 패턴을 검색하려면 키워드 또는 regex의 두 가지 변형을 정의합니다.

예를 들어 "机密的document"와 같은 키워드를 검색하려면 해당 키워드의 두 변형을 사용합니다. 일본어와 영어 텍스트 사이에 공백이 있고 일본어 텍스트와 영어 텍스트 사이에 공백이 없는 다른 텍스트가 있습니다. 따라서 SIT에 추가할 키워드는 "机密的 document" 및 "机密的document"여야 합니다. 마찬가지로 "東京オリンピック2020"라는 구를 검색하려면 두 가지 변형("東京オリンピック 2020" 및 "東京オリンピック2020")을 사용해야 합니다.

중국어/일본어/더블 바이트 문자와 함께 키워드/구 목록에 중국어/일본어가 아닌 단어도 포함된 경우(instance 독립 실행형 영어 단어의 경우) 두 개의 사전/키워드(keyword) 목록을 만들어야 합니다. 하나는 중국어/일본어/더블 바이트 문자가 포함된 키워드용이고 다른 하나는 영어 단어용입니다.

예를 들어 "극비", "機密性が高い" 및 "机密的문서"라는 세 개의 구가 포함된 키워드 사전/목록을 만들려는 경우, 두 개의 키워드 목록을 만들어야 합니다.
1. 극비
2. 機密性が高い, 机密的문서 및 机密的 문서

더블 바이트 하이픈 또는 더블 바이트 마침표로 regex를 만드는 동안 regex에서 하이픈이나 마침표가 이스케이프되는 것처럼 두 문자를 모두 이스케이프해야 합니다. 참조를 위한 샘플 regex는 다음과 같습니다.

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

키워드 목록에서 단어 일치 대신 문자열 일치를 사용하는 것이 좋습니다.

다음을 통해 공유