スキャン ルール セットを作成する
Microsoft Purview カタログでは、スキャン ルール セットを作成して、organization内のデータ ソースをすばやくスキャンできるようにします。
スキャン ルール セットは、スキャン ルールのセットをグループ化して、スキャンに簡単に関連付けることができるようにするためのコンテナーです。 たとえば、データ ソースの種類ごとに既定のスキャン ルール セットを作成し、社内のすべてのスキャンでこれらのスキャン ルール セットを既定で使用できます。 また、適切なアクセス許可を持つユーザーが、ビジネス ニーズに基づいて構成が異なる他のスキャン ルール セットを作成することもできます。
スキャン ルール セットを作成する手順
スキャン ルール セットを作成するには:
Azure Microsoft Purview ガバナンス ポータルで、[ データ マップ] を選択します。
左側のウィンドウで [ スキャン ルール セット ] を選択し、[ 新規] を選択します。
[ 新しいスキャン ルール セット ] ページで、[ソースの種類] ドロップダウン リストからカタログ スキャナーでサポートされているデータ ソース を選択します。 スキャンするデータ ソースの種類ごとにスキャン ルール セットを作成できます。
スキャン ルールに [名前] を設定します。 最大長は 63 文字で、スペースは使用できません。 必要に応じて、[ 説明] を入力します。 最大の長さは 256 文字です。
[続行] を選択します。
[ ファイルの種類の選択] ページが表示されます。 このページのファイルの種類のオプションは、前のページで選択したデータ ソースの種類によって異なります。 既定では、すべてのファイルの種類が有効になっています。
このページの ドキュメント ファイルの種類 を選択すると、次の office ファイルの種類 (.doc、.docm、.docx、.dot、.odp、.ods、.odt、.pdf、.pot、.ppsx、.ppt、.pptm、.pptx、.xlc、.xls、.xlsb、.xlsm、.xlsx、.xlt) を含めたり除外したりできます。
[チェック] ボックスをオンまたはオフにして、ファイルの種類のタイルを有効または無効にします。 Data Lake 型データ ソース (Azure Data Lake Storage Gen2や Azure Blob など) を選択した場合は、スキーマを抽出して分類するファイルの種類を有効にします。
特定のデータ ソースの種類の場合は、 カスタム ファイルの種類を作成することもできます。
[続行] を選択します。
[ 分類ルールの選択] ページが表示されます。 このページには、選択した システム ルール と カスタム ルール、および選択した分類ルールの合計数が表示されます。 既定では、すべてのシステム ルール チェック ボックスが選択されています
含めるルールまたは除外するルールについては、[システム ルール分類ルール] チェックボックスをカテゴリ別にグローバルに選択またはクリアできます。
カテゴリ ノードを展開し、個々のチェック ボックスを選択またはクリアできます。 たとえば、Argentina.DNI Number のルールに誤検知が多い場合は、その特定のチェック ボックスをオフにすることができます。
[ 作成] を 選択して、スキャン ルール セットの作成を完了します。
カスタム ファイルの種類を作成する
Microsoft Purview では、カスタム拡張機能の追加と、スキャン ルール セットでのカスタム列区切り記号の定義がサポートされています。
カスタム ファイルの種類を作成するには:
「手順」の手順 1 ~ 5 に従って 、スキャン ルール セットを作成 するか、既存のスキャン ルール セットを編集します。
[ ファイルの種類の選択 ] ページで、[ 新しいファイルの種類 ] を選択して、新しいカスタム ファイルの種類を作成します。
[ファイル拡張子] とオプションの [説明] を入力します。
ファイル 内のファイルの内容 の種類を指定するには、次のいずれかの [ファイルの内容] を選択します。
[ カスタム区切り記号] を 選択し、独自の カスタム区切り記号 (1 文字のみ) を入力します。
[ システム ファイルの種類 ] を選択し、[システム ファイルの種類] ドロップダウン リストから システム ファイルの種類 (XML など) を選択します。
[ 作成] を 選択して、カスタム ファイルを保存します。
[ ファイルの種類の選択 ] ページに戻り、新しいカスタム ファイルの種類が新しいタイルとして挿入されます。
変更または削除する場合は、新しいファイルの種類のタイルで [編集] を 選択します。
[ 続行] を選択して、スキャン ルール セットの構成を完了します。
パターンを無視する
Microsoft Purview では、スキャン中に資産を除外する正規表現 (正規表現) の定義がサポートされています。 スキャン中、Microsoft Purview は資産の URL をこれらの正規表現と比較します。 前述の正規表現のいずれかに一致するすべての資産は、スキャン中に無視されます。
[ パターンの無視] ブレードでは、 Spark トランザクション ファイルに対して 1 つの正規表現が事前に設定されます。 必要がない場合は、既存のパターンを削除できます。 最大 10 個の無視パターンを定義できます。
上記の例では、次の手順を実行します。
- 正規表現 2 と 3 は、スキャン中に .txt と .csv で終わるすべてのファイルを無視します。
- 正規表現 4 では、スキャン中に /folderB/ とそのすべての内容が無視されます。
パターンを無視するために使用できるその他のヒントを次に示します。
正規表現の処理中に、Microsoft Purview は既定で正規表現に $ を追加します。
スキャン エージェントが正規表現と比較する URL を理解するには、Microsoft Purview データ カタログを参照し、今後無視する資産を見つけて、[ 概要 ] タブにその完全修飾名 (FQN) を表示することをお勧めします。
システム スキャン ルール セット
システム スキャン ルール セットは、Microsoft Purview カタログごとに自動的に作成される Microsoft 定義のスキャン ルール セットです。 各システム スキャン ルール セットは、特定のデータ ソースの種類に関連付けられます。 スキャンを作成するときに、システム スキャン ルール セットに関連付けることができます。 Microsoft がこれらのシステム ルール セットを更新するたびに、カタログで更新し、関連付けられているすべてのスキャンに更新プログラムを適用できます。
システム スキャン ルール セットの一覧を表示するには、管理センターで [スキャン ルール セット] を選択し、[システム] タブを選択します。
各システム スキャン ルール セットには、名前、ソースの種類、バージョンがあります。 [バージョン ] 列で スキャン ルール セットのバージョン番号を選択すると、現在のバージョンと以前のバージョン (存在する場合) に関連付けられているルールが表示されます。
システム スキャン ルール セットに対して更新プログラムを使用できる場合は、[バージョン] 列で [更新] を選択できます。 [システム スキャン ルール] ページで、[ 更新する新しい バージョンの選択] ドロップダウン リストからバージョンを選択します。 ページには、新しいバージョンと現在のバージョンに関連付けられているシステム分類規則の一覧が表示されます。
スキャンをシステム スキャン ルール セットに関連付ける
スキャンを作成するときに、次のようにシステム スキャン ルール セットに関連付けることができます。