次の方法で共有


完全なデータ一致ベースの機密情報の種類のソース データをエクスポートする

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータ セキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンス ポータルのトライアル ハブで今すぐ開始してください。 サインアップと試用期間の詳細については、こちらをご覧ください。

適用対象

機密データ テーブルは、ドキュメント内のコンテンツを比較して機密データを識別する値の行を含むテキスト ファイルです。 これらの値は、個人を特定できる情報、製品レコード、またはコンテンツで検出して保護するテキスト形式のその他の機密データである可能性があります。

テーブル内のデータを (サポートされている形式のいずれかで) エクスポートしたら、EDM スキーマを作成できます。

EDM 機密型の定義

EDM 機密型を定義する場合、最も重要な決定事項の 1 つは、どのフィールドがプライマリ フィールドであるかを定義することです。 プライマリ フィールドは、検出可能なパターンに従い、EDM スキーマで検索可能なフィールド (列) として定義する必要があります。 セカンダリ フィールドは、プライマリ フィールドと一致するすべてのテキストと比較されるため、任意のパターンに従う必要はありません。

プライマリ フィールドとして使用する列を決定するには、次の規則を使用します。

  • 機密データ テーブル内のフィールドに一致する 1 つの値の存在に基づいて機密データを検出する必要がある場合は、そのデータを取り巻く他の機密データの有無に関係なく、その列を EDM SIT のプライマリ要素として定義する必要があります。
  • 機密データ テーブル内の異なるフィールドの複数の組み合わせをコンテンツで検出する必要がある場合は、そのような組み合わせのほとんどに共通する列を特定し、それらをプライマリ要素として指定します。 他のフィールドの組み合わせをセカンダリ要素として指定します。
  • プライマリ要素として使用する列が、検出可能なパターン (ドキュメントやメールの大部分のどこかに存在する検出可能なパターンなど any text string ) に従わない場合は、他のより適切な構造化された列をプライマリ要素として選択します。

たとえば、最初と最後の名前が検出するデータのさまざまな組み合わせに共通する列である場合でも、列full namedate of birthaccount number、および Social Security Numberがある場合、そのような文字列は、識別しやすいパターンに従わないので、機密情報の種類として定義するのが難しい場合があります。 これにはいくつかの理由があります。

  • 一部の名前は大文字で始まる場合があります
  • 一部は、2 つ、3 つ以上の単語/文字列で形成される場合があります
  • 一部には、数字やその他のアルファベット以外の文字が含まれている場合があります。 生年月日はより簡単に識別できますが、すべての電子メールとほとんどのドキュメントに少なくとも 1 つの日付が含まれるため、 DateOfBirth フィールドも適切な候補ではありません。 代わりに、社会保障番号やアカウント番号などのフィールドを使用します。これは、プライマリ フィールドに適した候補です。

サンプル ファイル テンプレート

プライマリ フィールドの選択を容易にするために、次のサンプル ファイル テンプレートをまとめました。

これらは、列ヘッダーとして業界全体で最も一般的に使用される値を持つコンマ区切り値 (.csv) ファイルと、行内の Microsoft によって生成された合成値です。 列ヘッダーを使用して、プライマリ フィールドの決定に役立ちます。 ベスト プラクティスは、必要なソース データのみをエクスポートすることです。 列ヘッダーは、最も関連性の高いフィールドを提案します。

サンプル ファイル テンプレートの使用方法については、「サンプル ファイル テンプレート を使用する方法」を参照してください。

機密データ を.csv.tsv、または パイプ区切り形式で 保存する

  1. 使用する機密情報を特定します。 データを Microsoft Excel などのアプリにエクスポートし、ファイルをテキスト ファイルとして保存します。 ファイルは、 .csv (コンマ区切り値)、 .tsv (タブ区切り値)、または ()(|パイプ区切り) 形式のいずれかで保存できます。 .tsv 形式は、データ値に番地などのコンマが含まれる場合に推奨されます。 データ ファイルには、次のデータを含めることができます。

    • 最大 1 億行の機密データ
    • データ ソースごとに最大 32 列 (フィールド)
    • 検索可能としてマークされた最大 10 列 (フィールド)
  2. EDM ベースの分類に使用されるフィールドの名前が最初の行に含まれるので、機密データを .csv または .tsv ファイルに構成します。 ファイルには、"ssn"、"birthdate"、"firstname"、"lastname" などのフィールド名が含まれる場合があります。 列見出しの名前にスペースやアンダースコアを含めることはできません。 たとえば、この記事で使用するサンプルの .csv ファイルは PatientRecords.csv と呼ばれており、その列には PatientIDMRNLastNameFirstNameSSN などが含まれています。

  3. 機密データ フィールドの形式に注意してください。特に、コンテンツにコンマを含む可能性があるフィールド。 たとえば、値 "Seattle, WA" を含む番地は、.csv 形式が選択されている場合、2 つの個別のフィールドとして解析されます。 これを回避するには、.tsv 形式を使用するか、機密データ テーブルの二重引用符で値を含むコンマを囲みます。 値を含むコンマにスペースも含まれている場合は、対応する形式に一致するカスタム SIT を作成する必要があります。 たとえば、コンマとスペースを含む複数単語の文字列を検出する SIT です。

次の手順

または

関連項目