Microsoft Purview でのカスタム分類
この記事では、カスタム分類を作成して、organizationに固有のデータ資産内のデータ型を定義する方法について説明します。 また、データ資産全体で指定されたデータを検索できるカスタム分類ルールの作成についても説明します。
重要
カスタム分類を作成するには、コレクションに対する データ キュレーター または データ ソース管理者 のアクセス許可が必要です。 任意のコレクション レベルでのアクセス許可で十分です。 アクセス許可の詳細については、「 Microsoft Purview のアクセス許可」を参照してください。
既定のシステム分類
Microsoft Purview データ カタログは、データ資産に含まれる可能性がある一般的な個人データ型を表す、既定のシステム分類の大規模なセットを提供します。 使用可能なシステム分類の一覧については、「 Microsoft Purview でサポートされている分類」を参照してください。
既定の分類のいずれかがニーズを満たしていない場合は、カスタム分類を作成することもできます。
注:
データ サンプリング ルール は、システム分類とカスタム分類の両方に適用されます。
注:
Microsoft Purview カスタム分類は、SQL や CosmosDB などの構造化データ ソースと、CSV、JSON、Parquet などの構造化ファイルの種類にのみ適用されます。 カスタム分類は、DOC、PDF、XLSX などの非構造化データ ファイルの種類には適用されません。
カスタム分類を作成する手順
カスタム分類を作成するには、次の手順に従います。
カスタム分類を作成するには、任意のコレクションに対するデータ キュレーターまたはデータ ソース管理者のアクセス許可が必要です。
カタログから、左側のメニューから [データ マップ ] を選択します。
[注釈管理] で [分類] を選択します。
[+ 新規] を選択します
[ 新しい分類の追加] ウィンドウが開き、分類に名前と説明を付けることができます。 などの your company name.classification name
名前間隔規則を使用することをお勧めします。
Microsoft システム分類は、予約済み MICROSOFT.
名前空間の下にグループ化されます。 たとえば、 MICROSOFT です。政府。私たち。SOCIAL_SECURITY_NUMBER。
分類の名前は、文字の後に文字、数字、ピリオド (.) またはアンダースコア文字のシーケンスが続く必要があります。 入力すると、UX によってフレンドリ名が自動的に生成されます。 このフレンドリ名は、カタログ内の資産に適用するときにユーザーに表示される名前です。
名前を短く保つために、システムは次のロジックに基づいてフレンドリ名を作成します。
名前空間の最後の 2 つのセグメントを除くすべてのセグメントがトリミングされます。
大文字と小文字は、各単語の最初の文字が大文字になるように調整されます。
アンダースコア (_) はすべてスペースに置き換えられます。
たとえば、分類 contoso.hr.employee_IDという名前を付けた場合、フレンドリ名は Hr.Employee ID としてシステムに格納されます。
[ OK] を選択すると、新しい分類が分類リストに追加されます。
一覧で分類を選択すると、分類の詳細ページが開きます。 ここでは、分類に関するすべての詳細を確認できます。
これらの詳細には、インスタンスの数、正式な名前、関連付けられている分類規則 (存在する場合)、所有者名が含まれます。
カスタム分類ルール
カタログ サービスは、スキャナーが特定のデータ型を自動的に検出するために使用する既定の分類規則のセットを提供します。 また、独自のカスタム分類ルールを追加して、データ資産全体の検索に関心がある他の種類のデータを検出することもできます。 この機能は、データ資産内のデータを検索しようとしている場合に強力になる可能性があります。
注:
カスタム分類ルールは、英語でのみサポートされています。
たとえば、Contoso という名前の会社には、"Employee" という単語の後に EMPLOYEE{GUID} を作成するための GUID が続く、会社全体で標準化された従業員 ID があるとします。 たとえば、従業員 ID の 1 つのインスタンスは のようになります EMPLOYEE9c55c474-9996-420c-a285-0d0fc23f1f55
。
Contoso は、カスタム分類ルールを作成することで、これらの ID のインスタンスを検索するようにスキャン システムを構成できます。 データ パターン (この場合 \^Employee\[A-Za-z0-9\]{8}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{12}\$
は ) に一致する正規表現を指定できます。 必要に応じて、データが通常、Employee_IDや EmployeeID などの名前がわかっている列にある場合は、列パターンの正規表現を追加して、スキャンをさらに正確にすることができます。 正規表現の例は、Employee_ID|EmployeeID です。
スキャン システムでは、この規則を使用して、列内の実際のデータと列名を調べて、従業員 ID パターンが見つかったすべてのインスタンスを特定できます。
カスタム分類規則を作成する手順
カスタム分類ルールを作成するには:
前のセクションの手順に従って、カスタム分類を作成します。 このカスタム分類を分類ルール構成に追加して、列で一致するものが見つかるとシステムによって適用されるようにします。
[ データ マップ ] アイコンを選択します。
[ 分類ルール ] セクションを選択します。
[新規]を選択します。
[ 新しい分類規則 ] ダイアログ ボックスが開きます。 フィールドに入力し、 正規表現ルール と辞書ルールのどちらを作成するかを決定 します。
フィールド 説明 名前 必須です。 最大は 100 文字です。 説明 オプション。 最大は 256 文字です。 分類名 必須です。 ドロップダウン リストから分類の名前を選択して、一致するものが見つかった場合に適用するようにスキャナーに指示します。 状態 必須です。 オプションは有効または無効です。 [有効] が既定値です。
正規表現ルールの作成
重要
カスタム分類の正規表現では、大文字と小文字が区別されません。
正規表現ルールを作成すると、次の画面が表示されます。 必要に応じて、ルールの 推奨される正規表現パターンを生成 するために使用されるファイルをアップロードできます。 サポートされているのは英語のルールのみです。
推奨される正規表現パターンを生成する場合は、ファイルをアップロードした後、推奨されるパターンのいずれかを選択し、[ パターンに追加] を選択して、推奨されるデータと列のパターンを使用します。 推奨されるパターンを調整することも、ファイルをアップロードせずに独自のパターンを入力することもできます。
フィールド 説明 データ パターン オプション。 データ フィールドに格納されているデータを表す正規表現。 制限が大きい。 前の例では、文字どおり の単語である従業員 ID のデータ パターンテストを行いました Employee{GUID}
。列パターン オプション。 一致させる列名を表す正規表現。 制限が大きい。 [ データ パターン ] で、[ 最小一致しきい値 ] を使用して、分類を適用するためにスキャナーで検出する必要がある列内の個別のデータ値の一致の最小割合を設定できます。 推奨される値は 60% です。 複数のデータ パターンを指定した場合、この設定は無効になり、値は 60% で固定されます。
注:
最小一致しきい値は 1% 以上にする必要があります。
これで、ルールを確認して 作成 できます。
作成プロセスを完了する前に分類ルールをテストして、アセットにタグが適用されることを検証します。 ルールの分類は、スキャンと同様にアップロードされたサンプル データに適用されます。 つまり、すべてのシステム分類とカスタム分類がファイル内のデータと一致します。
入力ファイルには、区切られたファイル (CSV、PSV、SSV、TSV)、JSON、または XML コンテンツを含めることができます。 コンテンツは、入力ファイルのファイル拡張子に基づいて解析されます。 区切られたデータには、前述の種類のいずれかに一致するファイル拡張子が含まれる場合があります。 たとえば、TSV データは、MySampleData.csv という名前のファイルに存在できます。 区切られたコンテンツには、少なくとも 3 つの列が必要です。
ディクショナリ ルールの作成
ディクショナリ ルールを作成すると、次の画面が表示されます。 1 つの列に作成する分類で使用可能なすべての値を含むファイルをアップロードします。 サポートされているのは英語のルールのみです。
ディクショナリが生成されたら、最小一致しきい値を調整し、ルールを送信できます。
カスタム分類を編集または削除する
カスタム分類を更新または編集するには、次の手順に従います。
Microsoft Purview アカウントで、[ データ マップ] を選択し、[分類] を選択 します。
[カスタム] タブ を 選択します。
編集する分類を選択し、[ 編集 ] ボタンを選択します。
これで、このカスタム分類の説明を編集できます。 完了したら、[ OK] ボタンを選択して変更を保存します。
カスタム分類を削除するには:
- データ マップを開き、[分類] を選択した後、[カスタム] タブを選択します。
- 削除する分類、または削除する複数の分類を選択し、[ 削除 ] ボタンを選択します。
分類自体の内部から分類を編集または削除することもできます。 分類を選択し、上部のメニューの [編集] ボタンまたは [削除 ] ボタンを選択するだけです。
分類規則を有効または無効にする
Microsoft Purview アカウントで、[ データ マップ] を選択し、[ 分類ルール] を選択します。
[カスタム] タブ を 選択します。
分類ルールの現在の状態をチェックする場合は、テーブルの [状態] 列を確認します。
有効または無効にする分類規則または複数の分類規則を選択します。
上部のメニューで [有効] または [無効] ボタンを選択します。
ルールを編集するときに、ルールの状態を更新することもできます。
分類ルールを編集または削除する
カスタム分類ルールを更新または編集するには、次の手順に従います。
Microsoft Purview アカウントで、[ データ マップ] を選択し、[ 分類ルール] を選択します。
[カスタム] タブ を 選択します。
編集する分類ルールを選択し、[ 編集 ] ボタンを選択します。
これで、状態、説明、および関連付けられている分類ルールを編集できます。
[続行] ボタンを選択します。
一致する正規表現または辞書ルールの新しいファイルをアップロードし、一致するしきい値と列パターンの一致を更新できます。
[適用] を選択して変更を保存します。 資産全体に変更を適用するには、新しいルールを使用してスキャンを再実行する必要があります。
カスタム分類を削除するには:
[データ マップ] を開き、[分類ルール] を開いた後、[カスタム] タブを選択します。
削除する分類ルールを選択し、[ 削除 ] ボタンを選択します。
次の手順
これで分類ルールを作成したので、スキャン時にルールを使用できるように、スキャン ルール セットに追加する準備ができました。 詳細については、「 スキャン ルール セットの作成」を参照してください。