電子情報開示 (プレビュー) ケースでの検索と分析の設定について説明します
電子情報開示 (プレビュー) ケースごとに設定を構成して、次の機能を制御できます。
- 準重複と電子メールスレッド
- テーマ
- 自動生成されたレビューセットクエリ
- テキストの無視
- 光学式文字認識
ヒント
Microsoft Copilot for Security の使用を開始して、AI の力を使用して、よりスマートかつ迅速に作業するための新しい方法を探ります。 Microsoft Purview の Microsoft Copilot for Security の詳細については、こちらをご覧ください。
ケースの分析設定を構成する
ケースの検索と分析の設定を構成するには:
- Microsoft Purview ポータルに移動し、電子情報開示アクセス許可が割り当てられているユーザー アカウントの資格情報を使用してサインインします。
- 電子情報開示ソリューション カードを選択し、左側のナビゲーションで [ケース] を選択します。
- ケースを選択し、[ケース設定] を選択 します。
- [ ケースの設定] ページで、[ 検索 & 分析] を選択します。
- ケース検索 & 分析 ページが表示されます。 これらの設定は、ケース内のすべてのレビュー セットに適用されます。
- 該当する検索と分析のオプションを選択したら、[保存] を選択 します。
この記事の次のセクションでは、ケースに対して構成できる分析設定について説明します。
準重複と電子メールスレッド
このセクションでは、重複検出、ほぼ重複検出、および電子メール スレッドのパラメーターを設定できます。
- ほぼ重複/電子メールスレッド: オンにすると、レビュー セット内のデータに対して分析を実行するときに、重複検出、ほぼ重複検出、電子メール スレッドがワークフローの一部として含まれます。
- ドキュメントと電子メールの類似性のしきい値: 2 つのドキュメントの類似性レベルがしきい値を超えている場合、両方のドキュメントが同じほぼ重複したセットに配置されます。
- 単語の最小/最大数: これらの設定では、ほぼ重複と電子メールスレッド分析が、少なくとも最小単語数と最大単語数を持つドキュメントでのみ実行されるように指定します。
準重複の検出
サブセットが同じテンプレートに基づいており、ほとんど同じボイラープレート言語を持ち、ところどころにいくつかの違いがある、レビュー対象の一連のドキュメントを考えてみましょう。 校閲者がこのサブセットを特定し、そのうちの 1 つを徹底的に確認し、残りの部分の違いを確認できる場合、カバーするすべてのドキュメントの読み取りにかかる時間のほんの一部しかかからずに、一意の情報を見逃すことはなかったでしょう。 準重複の検出グループは、テキスト的に類似したドキュメントをまとめてグループ化し、レビュープロセスをより効率的にします。
準重複の検出が実行されると、システムはテキストを含むすべてのドキュメントを解析します。 次に、すべてのドキュメントを互いに比較して、それらの類似度を設定したしきい値よりも大きいかどうかを判断します。 大きい場合は、ドキュメントはグループ化されます。 すべてのドキュメントが比較およびグループ化されると、各グループのドキュメントが「ピボット」としてマークされます。ドキュメントのレビューでは、最初にピボットをレビューし、同じ準重複セット内の他のドキュメントをレビューして、ピボットとレビュー中のドキュメントの違いに焦点を合わせることができます。
電子メールスレッド
しばらく続いている電子メールの会話を考えてみましょう。 ほとんどの場合、電子メール スレッドの最後のメッセージには、上記のすべてのメッセージの内容が含まれます。 したがって、最後のメッセージを確認すると、スレッドで発生した会話の完全なコンテキストが得られます。 電子メール スレッドはそのようなメッセージを識別できるため、レビュアーは収集されたドキュメントの一部をコンテキストを失うことなく確認できます。
電子メール スレッドは、各メール スレッドを解析し、個々のメッセージに分解します。 各電子メール スレッドは、個々のメッセージのチェーンです。 電子情報開示 (プレビュー) は、レビュー セット内のすべての電子メール メッセージを分析して、電子メール メッセージに一意のコンテンツがあるかどうか、またはチェーン (親メッセージ) が電子メール スレッドの最後のメッセージに完全に含まれているかどうかを判断します。 電子メール メッセージは、次の 4 つの包括的な値に分割されます。
- 包括的: 包括的 な電子メールは、電子メール スレッド内の最終的な電子メール メッセージであり、その電子メール スレッドの以前のすべてのコンテンツが含まれています。
- 包括マイナス: 電子メール メッセージは、電子メール スレッド内の特定のメッセージに関連付けられている 1 つ以上の添付ファイルがある場合は、 包括マイナス として指定されます。 レビュー担当者は、包括的マイナス値を使用して、スレッド内のどの電子メール メッセージに添付ファイルが関連付けられているかを判断できます。
- 包括コピー: 電子メール メッセージは、 包括的または包括的 な差し引きメッセージの正確なコピーである場合、包括的コピーと見なされます。
- None: None 値は、メッセージの内容が、少なくとも 1 つの他の電子メール メッセージに完全に含まれていることを示します。これは、包括的または包括的なマイナスとしてマークされています。
Outlook での会話との違いは何ですか?
ひとめで見て、これは Outlook の会話グループに似ています。 ただし、いくつかの重要な違いがあります。 2 つの会話にフォークされたメールの会話を考えてみましょう。たとえば、会話の最新ではないメールに誰かが返信したので、会話内の最後の 2 つのメールはどちらも一意のコンテンツを持っています。
Outlook は引き続きメールを 1 つの会話にグループ化します。最後のメールのみを読み取る場合は、一意のコンテンツも含まれる 2 番目から最後のメールのコンテキストを見逃す可能性があります。 電子メールスレッドは各メールを個々のコンポーネントに解析して比較するため、電子メールスレッドは最後の2つの電子メールの両方を包括的としてマークし、包括的としてマークされたすべての電子メールを読む限り、コンテキストを見逃すことはありません
テーマ
このセクションでは、テーマに次のパラメーターを設定できます。
- テーマ: オンにすると、レビュー セット内のデータに対して分析を実行するときに、ワークフローの一部としてテーマ クラスタリングが実行されます。
- テーマの最大数: レビュー セット内のデータに対して分析を実行するときに生成できるテーマの最大数を指定します。
- テーマに数値を含める: オンにすると、テーマを生成するときに数値 (テーマを識別する) が含まれます。
- テーマの最大数を動的に調整します。 特定の状況では、必要な数のテーマを生成するための十分なドキュメントがレビュー セットに存在しない可能性があります。 この設定を有効にすると、電子情報開示はテーマの最大数を強制するのではなく、テーマの最大数を動的に調整します。
新しいドキュメントを作成するときは、通常、ドキュメントで伝えたい 1 つ以上のアイデアから始めて、これらのアイデアに合った単語を使用してドキュメントを作成します。 アイデアが普及すればするほど、そのアイデアに関連する単語がより頻繁に使用される傾向があります。 このメソッドは、閲覧者がドキュメントを使用する方法にも合わせて調整されます。 ドキュメントの読み取りから理解すべき重要な点は、ドキュメントが伝えようとしている主なアイデアです。 これには、アイデアの場所とアイデア間の関係が表示されるアイデアも含まれます。
このプロセスは、電子情報開示レビュー担当者がケースで一連のドキュメントを使用する方法に拡張できます。 レビュー セットに存在するアイデアと、それらのアイデアについて話しているドキュメントを確認したいと考えています。 特定の関心のあるドキュメントを見つけた場合は、同様のアイデアについて説明するドキュメントを表示できるようにしたいと考えています。
電子情報開示の テーマ 機能は、レビュー セットで説明されている テーマ を分析し、レビュー セット内のドキュメントにテーマを割り当てることで、人間がドキュメントに対する理由を模倣しようとします。 電子情報開示では、テーマは 1 ステップ進み、各レビュー セットとドキュメントの 主要なテーマ を識別します。 主要なテーマは、ドキュメント内で最も頻繁に表示されるテーマです。
テーマのしくみ
テーマ機能は、レビュー セット内のテキストを含むドキュメントを分析して、レビュー セット内のすべてのドキュメントに表示される一般的なテーマを解析します。 電子情報開示は、テーマを、それらが表示されるドキュメントに割り当てます。 また、テーマには、テーマを表すドキュメントで使用されている単語を各テーマにラベル付けします。 ドキュメントにはさまざまな種類の主題が含まれる場合があるため、電子情報開示では、多くの場合、複数のテーマを割り当ててセットとドキュメントを確認します。 これは 、[テーマ] リストと呼ばれます。 レビュー セットまたはドキュメントで最も目立つように表示されるテーマは、 その主要なテーマとして指定されます。
テーマの構成
テーマはケースでサポートされ、その中のすべてのレビュー セットに適用されます。 新しいケースを作成するときにテーマの設定を構成することも、既存のケースのテーマ設定を更新することもできます。
ケースでテーマを構成するには、次の手順を実行します。
- Microsoft Purview ポータルに移動し、電子情報開示アクセス許可が割り当てられているユーザー アカウントの資格情報を使用してサインインします。
- 電子情報開示ソリューション カードを選択し、左側のナビゲーションで [ケース] を選択します。
- ケースを選択し、[ケース設定] を選択 します。
- [ ケースの設定] ページで、[ 検索 & 分析] を選択します。
- 必要に応じて、次のテーマ オプションを選択します。
- テーマの最大数: ケースに含まれるレビュー セット内のデータに対して分析を実行するときに生成できるテーマの最大数を指定します。 制限の詳細については、「 電子情報開示の制限」を参照してください。
- テーマに数値を含める: テーマを生成するときに、(テーマを識別する) 数値が含まれます。
- テーマの最大数を動的に調整します。 特定の状況では、レビュー セットに必要な数のテーマを生成するのに十分なドキュメントがない場合があります。 この設定を有効にすると、テーマの最大数を適用するのではなく、テーマの最大数が動的に調整されます。
- テーマに関連付けられているキーワードを除外する必要がある場合は、[テキストを無視] フィールドに必要な テキスト または正規表現を入力します。 [ 適用先 ] フィールドで、[ テーマ ] を選択して、テキストまたは正規表現をすべてのテーマに適用します。
- [保存] を選択します。
新しいケースが作成されると、レビュー セットがケースに追加されると、データに対して分析が自動的に実行されます。 レビュー セットのテーマは、分析処理の一部として生成されます。
セット クエリの確認
[分析後に保存された検索をレビュー用に自動的に作成する] チェック ボックスをオンにした場合、電子情報開示は、For Review という名前のレビュー セット クエリを自動生成します。
このクエリでは、レビュー セットから重複するアイテムを除外して、レビュー セット内の一意の項目をすばやく確認できます。 このクエリは、ケースのレビューセットの分析を実行したときにのみ作成されます。 レビュー セット クエリの詳細については、「レビュー セット 内のデータのクエリ」を参照してください。
テキストの無視
特定のテキストが分析の品質を低下させる場合があります。たとえば、電子メールの内容に関係なく、電子メール メッセージに追加される長い免責事項などです。 無視する必要があるテキストがわかっている場合は、テキストを除外する必要があるテキスト文字列と分析機能 (ほぼ重複、電子メールスレッド、テーマ、関連性) を指定することで、分析から除外できます。 無視されたテキストに正規表現 (RegEx) を使用することもサポートされています。
光学式文字認識(OCR)
この設定をオンにすると、OCR 処理はイメージ ファイルで実行されます。 OCR 処理は、次の状況で実行されます。
- ケースにデータ ソースを追加する場合: OCR をイメージ ファイルに適用すると、それらのファイル内のテキストが検索結果で使用できるようになります。 OCR 処理は、高度なインデックス作成プロセス中に実行されます (このオプションが検索クエリで選択されている場合)。 OCR は、高度なインデックス作成中に処理されるアイテムに対してのみ実行されます。 たとえば、部分的にインデックスが作成された、または他のインデックス作成エラーが発生した大きな PDF ファイルが高度なインデックス作成中に処理された場合、ファイルには OCR が適用されます。 OCR 処理は、高度なインデックス作成プロセス中にインデックスが再作成されたファイルでのみ実行されます。 つまり、ケースにデータ ソースが追加される場合がありますが、高度なインデックス作成中にこれらのファイルが処理されないため、一部の電子メールの添付ファイルは OCR 用に処理されません。
- コンテンツが他のデータ ソースから追加された場合: これは、データ ソースに適用され、ケースと、検索結果がレビュー セットに追加されたときには関連付けられません。
レビュー セットにデータを追加すると、画像テキストをレビュー、検索、タグ付け、分析できます。 抽出したテキストは、レビュー セットで選択した画像ファイルのテキスト ビューアーで表示できます。 詳細については、以下を参照してください: