ケースコンテンツを分析する

10 分

収集されたドキュメントの数が多い場合、すべてを確認することは困難な場合があります。 Microsoft Purview eDiscovery (Premium) には、ドキュメントを分析するための次のツールが用意されています。

準重複の検出
電子メールスレッド
テーマ

これらの各ツールは、この単元で紹介されています。これらのツールは、組織が次のことを行うのに役立ちます。

情報を失うことなく、レビューするドキュメントの量を減らします。
一貫した方法でドキュメントを整理するのに役立ちます。

組織は、これらのドキュメント分析ツールを使用する前に、レビューセットのデータを分析することから始めたいと思うかもしれません。

eDiscovery (Premium) でレビューセットのデータを分析する

多くの場合、組織には、レビューが必要な大量のドキュメントや電子メールメッセージがあります。このような状況では、傾向や主要な統計を特定するために、データ全体をすばやく分析することから始めたいと思うかもしれません。このプロセスは、組織がレビュー戦略を開発するのに役立ちます。レビューセットの eDiscovery (Premium) ダッシュボードを使用して、コンテンツをすばやく分析できます。

レビューセットの分析を実行する

レビューセットのデータを分析するには:

ケースの分析設定を構成します。詳細については、検索と分析の設定を構成するをご覧ください。
分析するレビューセットを開きます。
メニューバーで [アナリティクス] を選択します。表示されるドロップダウンメニューで、[ ドキュメントの実行] & [電子メール分析] を選択します。

組織は、ケースの [ジョブ] タブで分析の進行状況を確認できます。分析が完了すると、次のことが可能になります。

アナリティクスレポートを表示します。
分析の出力に対して、レビューセット内でクエリを実行します。詳細については、レビューセット内のクエリをご覧ください。
特定のドキュメントに関連するドキュメントを表示します。詳細については、レビューセット内のデータのレビューをご覧ください。

レビュー用フィルタークエリを使用する

組織がレビューセットの分析を実行した後、自動的に生成された For Review というフィルタクエリを使用できます。このクエリは、レビューセットをフィルタリングして、重要でないアイテム、重複するアイテム、または包括的でないアイテムを除外します。このプロセスにより、代表的で、一意で、レビューセットに含まれるアイテムのみが組織に残されます。

レビュー用フィルタクエリをレビューセットに適用するには、[保存済みフィルタクエリ] を選択します。表示されるドロップダウンリストで、[[AutoGen] For Review] を選択します。

ドロップダウンメニューに [保存されたフィルタクエリ] オプションと [レビュー用] オプションが表示されているレビューセットのスクリーンショット。

For Review フィルタ クエリの構文は次のとおりです:


  
   (((FileClass="Email") AND (InclusiveType="InclusiveMinus" OR InclusiveType="Inclusive")) OR ((FileClass="Attachment") AND (UniqueInEmailSet="true")) OR ((FileClass="Document") AND (MarkAsRepresentative="Unique")) OR (FileClass="Conversations"))">">

次のリストは、フィルタークエリの結果を、レビューセットに適用した後に表示されるコンテンツについて説明しています。

メール。 Inclusive または InclusiveMinus としてマークされたアイテムを表示します。
- 包括的な。包括的アイテムは、電子メールスレッドの最後のメッセージです。これには、電子メールスレッドの以前のすべてのコンテンツが含まれます。
- 包括的マイナス。包括的マイナス項目には、電子メールスレッド内の特定のメッセージに関連付けられた 1 つ以上の添付ファイルが含まれます。レビュー担当者は、包括的なマイナス値を使用して、電子メールスレッド内のどの特定のメッセージに添付ファイルが関連付けられているかを判断できます。
添付ファイル。同じメールセット内の重複する添付ファイルを除外します。電子メールスレッドで一意の添付ファイルのみが表示されます。
ドキュメントおよびその他。重複するドキュメントを除外します。レビューセット内で一意のドキュメントのみが表示されます。
チームの会話。レビューセット内のすべての Teams (およびViva Engage) の会話が表示されます。

包括的タイプとドキュメントの一意性の詳細については、この単元で後述する電子メールのスレッド化に関するセクションを参照してください。

分析レポート

レビューセットの分析レポートを表示するには:

レビューセットを開きます。
メニューバーで [アナリティクス] を選択します。表示されるプルダウンメニューで、[レポートを表示] を選択します。

分析の結果、Analytics レポートには 7 つのコンポーネントがあります。

対象集団。レビューセットで見つかった電子メールメッセージ、添付ファイル、未公開ドキュメントの数。
ドキュメント (添付ファイルを除く)。以下のルーズドキュメントの数:
- ピボット
- ピボットの一意のほぼ重複
- 別の文書の完全な複製
電子メール。次のようにマークされた電子メールメッセージの数:
- 包括的
- 包括コピー
- 包括的マイナス
- 上記のどれでもない
添付ファイル。次の電子メール添付ファイルの数:
- 一意
- レビューセット内の別の電子メール添付ファイルの重複
ファイルタイプ別にドキュメントに番号を付ける。ファイル拡張子で識別されるファイルの数。
ソース別ドキュメント。元のデータソースごとのコンテンツの概要。
プロセスごとにまとめられたドキュメント。レビューセットプロセスごとのコンテンツの概要。

文書分析ツール: eDiscovery (Premium) でほぼ重複検出

サブセットが同じテンプレートに基づいており、ほとんど同じボイラープレート言語を持ち、ところどころにいくつかの違いがある、レビュー対象の一連のドキュメントを考えてみましょう。レビュー担当者がこのサブセットを特定し、ドキュメントの 1 つを徹底的にレビューし、残りの違いをレビューできれば、固有の情報を見逃すことはありませんでした。また、レビュアーがすべての文書を最初から最後まで読むのにかかる時間よりもわずかな時間しかかからなかったでしょう。

注:

準重複検出は、組織がそのレビュープロセスをより効率的にするのに役立つように、テキスト的に類似したドキュメントをグループ化します。

重複検出はどのように機能しますか?

準重複の検出が実行されると、システムはテキストを含むすべてのドキュメントを解析します。次に、すべてのドキュメントを互いに比較して、それらの類似度を設定したしきい値よりも大きいかどうかを判断します。大きい場合は、ドキュメントはグループ化されます。

すべてのドキュメントを比較してグループ化すると、各グループのドキュメントがピボットとしてマークされます。組織がドキュメントをレビューする場合、最初にピボットドキュメントをレビューできます。次に、同じほぼ重複するセット内の他のドキュメントを確認できます。組織は、ピボットとレビュー中のドキュメントの違いに集中できます。

ドキュメント分析ツール: eDiscovery の電子メールスレッド (プレミアム)

しばらく続いている電子メールの会話を考えてみましょう。ほとんどの場合、電子メールスレッドの最後のメッセージには、先行するすべてのメッセージの内容が含まれます。したがって、最後のメッセージを確認すると、スレッドで発生した会話の完全なコンテキストが提供されます。

注:

電子メールスレッドはそのようなメッセージを識別できるため、レビュアーは収集されたドキュメントの一部をコンテキストを失うことなく確認できます。

メールのスレッド化はどのように機能しますか?

電子メールスレッドは、各電子メールスレッドを解析します。次に、それを個々のメッセージに分解します。各電子メールスレッドは、個々のメッセージのチェーンです。

Microsoft Purview eDiscovery (Premium) は、レビューセット内のすべての電子メールメッセージを分析して、電子メールメッセージに固有のコンテンツがあるかどうかを判断します。また、チェーン (親メッセージ) が電子メールスレッドの最終メッセージに完全に含まれているかどうかも判断できます。プロセスの最後に、電子メールメッセージは次の 4 つのカテゴリに分類されます。

包括的な。 包括的メールは、メールスレッドの最後のメールメッセージです。その電子メールスレッドの以前の内容がすべて含まれています。
包括的マイナス。メールスレッド内の特定のメッセージに関連付けられた添付ファイルが 1 つ以上ある場合、メールメッセージは包括的マイナスとして指定されます。レビュー担当者は、包括的マイナス値を使用して、スレッド内のどの電子メールメッセージに添付ファイルが関連付けられているかを判断できます。
包括的コピー。 包括的または包括的マイナス メッセージの正確なコピーである場合、電子メールメッセージは包括的コピーと見なされます。
[なし]。なしの値は、メッセージの内容が、包括または包括マイナスとしてマークされた少なくとも 1 つの他の電子メールメッセージに完全に含まれていることを示します。

Outlook での会話との違いは何ですか?

一見すると、電子メールのスレッド化は Outlook の会話のグループ化に似ています。ただし、いくつかの重要な違いがあります。 2 つの会話に分岐した電子メールの会話を考えてみましょう。たとえば、会話の最新ではない電子メールに誰かが返信したとします。その結果、会話の最後の 2 つの電子メールは両方とも固有の内容を持っています。

Outlook では、引き続きメールが 1 つの会話にグループ化されます。どうしてでしょうか? 最後のメールだけを読むと、一意のコンテンツも含む最後から 2 番目のメールのコンテキストが失われる可能性があるためです。

電子メールスレッド化は各電子メールを個々のコンポーネントに解析して比較するため、電子メールスレッド化は最後の 2 つの電子メールの両方を包括的としてマークします。このプロセスにより、包括的とマークされたすべての電子メールを読んでいる限り、コンテキストを見逃すことはありません。

ドキュメント分析ツール: eDiscovery のテーマ (プレミアム)

人はどのようにドキュメントを作成しますか? 彼らは通常、ドキュメントで伝えたい 1 つ以上のアイデアから始めます。次に、アイデアに沿った言葉を使用して文書を作成します。アイデアが普及すればするほど、そのアイデアに関連する単語がより頻繁に使用される傾向があります。

このプロセスは、人々がドキュメントをどのように消費するかについても通知します。文書を読んで理解すべき重要なことは次のとおりです。

ドキュメントが伝えようとしているアイデア。
アイデアが生まれる場所。
アイデア間の関係とは何か。

これらの項目は、ユーザーが一連のドキュメントをどのように消費したいかまで拡張できます。彼らは見たい：

どのアイデアがセットに含まれているか。
どのドキュメントがそれらのアイデアについて話しているか。
関心のある特定のドキュメントが見つかった場合は、同様のアイデアについて説明しているドキュメントを参照してください。

注:

eDiscovery (Premium) のテーマ機能は、人間がドキュメントについて推論する方法を模倣しようとします。これは、レビューセットで議論されているテーマを分析し、レビューセット内のドキュメントにテーマを割り当てることによって行われます。

eDiscovery (Premium) では、テーマはさらに一歩進んで、各ドキュメントの主なテーマを識別します。ドミナントテーマは、ドキュメントで最も頻繁に表示されるテーマです。

テーマはどのように機能しますか?

テーマ機能は、レビューセット内のテキストを含むドキュメントを分析します。これは、レビューセット内のすべてのドキュメントに現れる共通のテーマを解析するために行います。

電子情報開示 (プレミアム) は、テーマを、それらが表示されるドキュメントに割り当てます。また、テーマには、テーマを表すドキュメントで使用されている単語を各テーマにラベル付けします。ドキュメントにはさまざまな種類の主題が含まれる可能性があるため、電子情報開示 (プレミアム) は複数のテーマをドキュメントに割り当てることがよくあります。ドキュメントで最も目立つテーマは、その主要なテーマとして指定されます。

理解度チェック

次の各質問に最適な回答を選択します。

自分の知識をチェックする

電子メールのスレッド化は、各電子メールを解析し、個々のメッセージに分解します。次に、ワーキングセット内のすべての電子メールを分析して、電子メールに固有のコンテンツがあるかどうか、またはチェーンが別の電子メールに完全に含まれているかどうかを判断します。プロセスの最後に、メールは 4 つのカテゴリに分類されます。電子メールの最後のメッセージに独自のコンテンツが含まれているが、他の電子メールに含まれていた一部の添付ファイルが電子メールに含まれておらず、その内容が完全にこの電子メールに含まれているカテゴリはどれですか?

包括的

包括的マイナス

包括コピー

作業を確認する前にすべての問題に回答する必要があります。

ケース コンテンツを分析する

eDiscovery (Premium) でレビュー セットのデータを分析する

レビュー セットの分析を実行する

レビュー用フィルター クエリを使用する