電子情報開示ケースの検索と分析の設定について説明します

[アーティクル]
03/06/2025

電子情報開示ケースごとに設定を構成して、次の機能を制御できます。

準重複と電子メールスレッド
テーマ
自動生成されたレビューセットクエリ
テキストの無視
光学式文字認識

ヒント

Microsoft Security Copilotの使用を開始して、AI の力を使用して、よりスマートかつ迅速に作業するための新しい方法を検討します。 Microsoft Purview のMicrosoft Security Copilotの詳細については、こちらをご覧ください。

ケースの分析設定を構成する

ケースの検索と分析の設定を構成するには:

Microsoft Purview ポータルに移動し、電子情報開示アクセス許可が割り当てられているユーザーアカウントの資格情報を使用してサインインします。
電子情報開示ソリューションのカードを選択し、左側のナビゲーションで [ケース] を選択します。
ケースを選択し、[ ケースの設定] を選択します。
[ ケースの設定] ページで、[ 検索 & 分析] を選択します。
ケース検索 & 分析 ページが表示されます。これらの設定は、ケース内のすべてのレビューセットに適用されます。
該当する検索と分析のオプションを選択したら、[保存] を選択 します。

この記事の次のセクションでは、ケースに対して構成できる分析設定について説明します。

準重複と電子メールスレッド

このセクションでは、重複検出、ほぼ重複検出、および電子メールスレッドのパラメーターを設定できます。

ほぼ重複/電子メールスレッド: オンにすると、レビューセット内のデータに対して分析を実行するときに、重複検出、ほぼ重複検出、電子メールスレッドがワークフローの一部として含まれます。
ドキュメントと電子メールの類似性のしきい値: 2 つのドキュメントの類似性レベルがしきい値を超えている場合、両方のドキュメントが同じほぼ重複したセットに配置されます。
単語の最小/最大数: これらの設定では、ほぼ重複と電子メールスレッド分析が、少なくとも最小単語数と最大単語数を持つドキュメントでのみ実行されるように指定します。

準重複の検出

サブセットが同じテンプレートに基づいており、ほとんど同じボイラープレート言語を持ち、ところどころにいくつかの違いがある、レビュー対象の一連のドキュメントを考えてみましょう。校閲者がこのサブセットを特定し、そのうちの 1 つを徹底的に確認し、残りの部分の違いを確認できる場合、カバーするすべてのドキュメントの読み取りにかかる時間はほんの一部ですが、一意の情報を見逃す必要はありません。準重複の検出グループは、テキスト的に類似したドキュメントをまとめてグループ化し、レビュープロセスをより効率的にします。

準重複の検出が実行されると、システムはテキストを含むすべてのドキュメントを解析します。次に、すべてのドキュメントを互いに比較して、それらの類似度を設定したしきい値よりも大きいかどうかを判断します。大きい場合は、ドキュメントはグループ化されます。すべてのドキュメントを比較してグループ化すると、各グループのドキュメントが "ピボット" としてマークされます。ドキュメントのレビューでは、最初にピボットを確認し、同じほぼ重複したセット内の他のドキュメントを確認できます。ピボットとレビュー中のドキュメントの違いに焦点を当てます。

電子メールスレッド

しばらく続いている電子メールの会話を考えてみましょう。ほとんどの場合、電子メールスレッドの最後のメッセージには、上記のすべてのメッセージの内容が含まれます。したがって、最後のメッセージを確認すると、スレッドで発生した会話の完全なコンテキストが得られます。電子メールスレッドはそのようなメッセージを識別できるため、レビュアーは収集されたドキュメントの一部をコンテキストを失うことなく確認できます。

電子情報開示でのスレッド処理Emailは、同じ会話の一部である一連の関連メールを整理するプロセスです。これには、最初のメールと、元のメールにリンクされているすべての返信と転送が含まれます。これらのメールをスレッドにグループ化することで、レビュー担当者は会話のコンテキスト全体を確認し、コミュニケーションの流れを理解しやすくなります。このアプローチは、関連情報をより効率的に識別するのに役立ち、各メールを個別に確認する必要がなくなります。分析プロセスに含まれるEmailメッセージには、次のメタデータが設定されています。

包括性: このフィールドは、以前のすべての返信を含む、スレッドのすべての一意のコンテンツが電子メールに含まれているかどうかを識別します。これにより、スレッド内の最も包括的なメールのみがレビューされます。これは、個々の返信を確認することなく、会話の完全なコンテキストを理解するために不可欠です。
一意の添付ファイルがある: このフィールドは、同じスレッド内の他のメールに見つからない添付ファイルを含むメールをマークします。メールコンテンツが重複している場合でも、関連するすべてのドキュメントが確実にレビューされるように、一意の添付ファイルにフラグが設定されます。これは、電子メール本文自体が一意でなくても、一意の証拠が見落とされないようにするための法的レビュープロセスで重要です。

Outlook での会話との違いは何ですか?

ひとめで見て、これは Outlook の会話グループに似ています。ただし、いくつかの重要な違いがあります。 2 つの会話にフォークされたメールの会話を考えてみましょう。たとえば、会話の最新ではないメールに誰かが返信したので、会話内の最後の 2 つのメールはどちらも一意のコンテンツを持っています。

Outlook は引き続きメールを 1 つの会話にグループ化します。最後のメールのみを読み取る場合は、一意のコンテンツも含まれる 2 番目から最後のメールのコンテキストを見逃す可能性があります。電子メールスレッドは各メールを個々のコンポーネントに解析して比較するため、電子メールスレッドでは、最後の 2 つのメールの両方が包括的としてマークされ、包括的としてマークされたすべてのメールを読む限り、コンテキストを見逃すことはありません。

また、複数の返信を含むメールスレッドについても考えてみましょう。一部の返信には、引用符で囲まれたコンテンツを変更するインライン応答が含まれます。インライン返信が前のメールの一部を変更した場合、最新の返信は以前のメールの内容を完全に包含しません。最新の返信と、一意のコンテンツを含む以前のメールの両方が包括的としてマークされます。この方法では、インライン応答の一意の情報が保持され、見落とされないようにします。

テーマ

このセクションでは、テーマに次のパラメーターを設定できます。

テーマ： オンにすると、レビューセット内のデータに対して分析を実行するときに、ワークフローの一部としてテーマクラスタリングが実行されます。
テーマの最大数: レビューセット内のデータに対して分析を実行するときに生成できるテーマの最大数を指定します。
テーマに数値を含める: オンにすると、テーマを生成するときに数値 (テーマを識別する) が含まれます。
テーマの最大数を動的に調整します。 特定の状況では、目的の数のテーマを生成するための十分なドキュメントがレビューセットに存在しない可能性があります。この設定を有効にすると、電子情報開示はテーマの最大数を強制するのではなく、テーマの最大数を動的に調整します。

新しいドキュメントを作成するときは、通常、ドキュメントで伝えたい 1 つ以上のアイデアから始めて、これらのアイデアに合った単語を使用してドキュメントを作成します。アイデアが普及すればするほど、そのアイデアに関連する単語がより頻繁に使用される傾向があります。このメソッドは、閲覧者がドキュメントを使用する方法にも合わせて調整されます。ドキュメントの読み取りから理解すべき重要な点は、ドキュメントが伝えようとしているメインアイデアです。これには、アイデアの場所とアイデア間の関係が表示されるアイデアも含まれます。

このプロセスは、電子情報開示レビュー担当者がケースで一連のドキュメントを使用する方法に拡張できます。レビューセットに存在するアイデアと、それらのアイデアについて話しているドキュメントを確認したいと考えています。特定の関心のあるドキュメントを見つけた場合は、同様のアイデアについて説明するドキュメントを表示できるようにしたいと考えています。

電子情報開示の テーマ 機能は、レビューセットで説明されている テーマ を分析し、レビューセット内のドキュメントにテーマを割り当てることで、人間がドキュメントに対する理由を模倣しようとします。電子情報開示では、テーマは 1 ステップ進み、各レビューセットとドキュメントの 主要なテーマ を識別します。 主要なテーマは、ドキュメント内で最も頻繁に表示されるテーマです。

テーマのしくみ

テーマ機能は、レビューセット内のテキストを含むドキュメントを分析して、レビューセット内のすべてのドキュメントに表示される一般的なテーマを解析します。電子情報開示は、テーマを、それらが表示されるドキュメントに割り当てます。また、テーマには、テーマを表すドキュメントで使用されている単語を各テーマにラベル付けします。ドキュメントにはさまざまな種類の主題が含まれる場合があるため、電子情報開示では、多くの場合、複数のテーマを割り当ててセットとドキュメントを確認します。これは 、[テーマ] リストと呼ばれます。レビューセットまたはドキュメントで最も目立つように表示されるテーマは、 その主要なテーマとして指定されます。

テーマの構成

テーマはケースでサポートされ、その中のすべてのレビューセットに適用されます。新しいケースを作成するときにテーマの設定を構成することも、既存のケースのテーマ設定を更新することもできます。

ケースでテーマを構成するには、次の手順を実行します。

Microsoft Purview ポータルに移動し、電子情報開示アクセス許可が割り当てられているユーザーアカウントの資格情報を使用してサインインします。
電子情報開示ソリューションカードを選択し、左側のナビゲーションで [ケース (プレビュー)] を選択します。
ケースを選択し、[ケース設定] を選択 します。
[ ケースの設定] ページで、[ 検索 & 分析] を選択します。
必要に応じて、次のテーマオプションを選択します。
- テーマの最大数: ケースに含まれるレビューセット内のデータに対して分析を実行するときに生成できるテーマの最大数を指定します。制限の詳細については、「電子情報開示の制限」を参照してください。
- テーマに数値を含める: テーマを生成するときに、(テーマを識別する) 数値が含まれます。
- テーマの最大数を動的に調整します。 特定の状況では、レビューセットに必要な数のテーマを生成するのに十分なドキュメントがない場合があります。この設定を有効にすると、テーマの最大数を適用するのではなく、テーマの最大数が動的に調整されます。
テーマに関連付けられているキーワードを除外する必要がある場合は、[テキストを無視] フィールドに必要な テキスト または正規表現を入力します。 [ 適用先 ] フィールドで、[ テーマ ] を選択して、テキストまたは正規表現をすべてのテーマに適用します。
[保存] を選択します。

新しいケースが作成されると、レビューセットがケースに追加されると、データに対して分析が自動的に実行されます。レビューセットのテーマは、分析処理の一部として生成されます。

セットクエリの確認

[分析後に保存された検索をレビュー用に自動的に作成する] チェックボックスをオンにした場合、電子情報開示は、For Review という名前のレビューセットクエリを自動生成します。

このクエリでは、レビューセットから重複するアイテムを除外して、レビューセット内の一意の項目をすばやく確認できます。このクエリは、ケースのレビューセットの分析を実行したときにのみ作成されます。レビューセットクエリの詳細については、「レビューセット内のデータのクエリ」を参照してください。

テキストの無視

特定のテキストが分析の品質を低下させる場合があります。たとえば、電子メールの内容に関係なく、電子メールメッセージに追加される長い免責事項などです。無視する必要があるテキストがわかっている場合は、テキストを除外する必要があるテキスト文字列と分析機能 (ほぼ重複、電子メールスレッド、テーマ、関連性) を指定することで、分析から除外できます。無視されたテキストに正規表現 (RegEx) を使用することもサポートされています。

光学式文字認識（OCR）

この設定をオンにすると、OCR 処理はイメージファイルで実行されます。 OCR を画像ファイルに適用すると、これらのファイル内のテキストが検索結果で使用できるようになります。 OCR は、高度なインデックス作成中に処理されたアイテムに対してのみ実行されます (このオプションが検索クエリで選択されている場合)。

たとえば、部分的にインデックスが作成された、または他のインデックス作成エラーが発生した大きな PDF ファイルが高度なインデックス作成中に処理された場合、OCR が適用されます。 OCR 処理は、高度なインデックス作成プロセス中にインデックスが再作成されたファイルでのみ実行されます。つまり、レビューセットにコンテンツが追加される場合がありますが、高度なインデックス作成中にこれらのファイルが処理されないため、一部の電子メールの添付ファイルが OCR 用に処理されない場合があります。

レビューセットにデータを追加すると、画像テキストをレビュー、検索、タグ付け、分析できます。抽出したテキストは、レビューセットで選択した画像ファイルのテキストビューアーで表示できます。詳細については、以下を参照してください:

次の方法で共有

電子情報開示ケースの検索と分析の設定について説明します

ケースの分析設定を構成する

準重複と電子メールスレッド

準重複の検出

電子メールスレッド

Outlook での会話との違いは何ですか?

テーマ

テーマのしくみ

テーマの構成

セットクエリの確認

テキストの無視

光学式文字認識（OCR）

フィードバック

その他のリソース

次の方法で共有

電子情報開示ケースの検索と分析の設定について説明します

ケースの分析設定を構成する

準重複と電子メールスレッド

準重複の検出

電子メールスレッド

Outlook での会話との違いは何ですか?

テーマ

テーマのしくみ

テーマの構成

セット クエリの確認

テキストの無視

光学式文字認識（OCR）

フィードバック

その他のリソース

セットクエリの確認