Сведения о параметрах поиска и аналитики в случаях обнаружения электронных данных (предварительная версия)

Статья
07/27/2024

Вы можете настроить параметры для каждого случая обнаружения электронных данных (предварительная версия), чтобы управлять следующими функциями:

Неполные дубликаты и цепочки сообщений
Темы
Автоматически созданный запрос набора для проверки
Игнорирование текста
Распознавание текста

Совет

Приступая к работе с Microsoft Security Copilot изучить новые способы интеллектуальной и быстрой работы с использованием возможностей ИИ. Дополнительные сведения о Microsoft Security Copilot в Microsoft Purview.

Настройка параметров аналитики для обращения

Чтобы настроить параметры поиска и аналитики для дела, выполните следующие действия:

Перейдите на портал Microsoft Purview и выполните вход, используя учетные данные для учетной записи пользователя, назначенной разрешениями на обнаружение электронных данных.
Выберите решение eDiscovery карта, а затем выберите Варианты (предварительная версия) на панели навигации слева.
Выберите вариант, выберите Параметры регистра.
На странице Параметры вариантов выберите Поиск & аналитики.
Отобразится страница "Поиск & аналитики ". Эти параметры применяются ко всем наборам проверки в случае.
Выбрав подходящие параметры поиска и аналитики, нажмите кнопку Сохранить.

В следующих разделах этой статьи описаны параметры аналитики, которые можно настроить для конкретного случая.

Неполные дубликаты и цепочки сообщений

В этом разделе вы можете задать параметры для обнаружения повторяющихся данных, обнаружения почти повторяющихся данных и потоков электронной почты.

Почти дубликаты или потоки электронной почты: Если этот параметр включен, обнаружение повторяющихся данных, обнаружение почти повторяющихся данных и потоки электронной почты включаются в рабочий процесс при выполнении аналитики данных в наборе для проверки.
Пороговое значение сходства документов и электронной почты: Если уровень сходства для двух документов превышает пороговое значение, оба документа помещаются в один и тот же набор, почти повторяющийся.
Минимальное или максимальное количество слов: Эти параметры указывают, что почти дубликаты и анализ потоков электронной почты выполняются только в документах с минимальным количеством слов и максимальным количеством слов.

Обнаружение схожих документов (почти дубликатов)

Рассмотрим набор документов на проверку, в котором подмножество основано на одном и том же шаблоне и имеет в основном один и тот же язык шаблона, с некоторыми различиями здесь и там. Если бы рецензент мог определить это подмножество, тщательно просмотреть один из них и проверить различия для остальных, он бы не пропустил какую-либо уникальную информацию, затрачивая лишь часть времени, которое потребовалось бы им на чтение всех документов для покрытия. При обнаружении почти одинаковых документов текстовые документы группируются вместе, чтобы помочь вам сделать процесс проверки более эффективным.

При запуске обнаружения неполных дубликатов система анализирует каждый документ с текстом. Затем он сравнивает каждый документ друг с другом, чтобы определить, превышает ли их сходство установленный порог. Если это так, документы группируются вместе. После того как все документы были сравнены и сгруппированы, документ из каждой группы помечается как "сводный документ". При просмотре документов можно сначала просмотреть сводный документ и просмотреть другие документы в том же наборе неполных дубликатов, сосредоточившись на разнице между сводным и проверяемым документом.

Потоки почты

Рассмотрим беседу по электронной почте, которая продолжается в течение некоторого времени. В большинстве случаев последнее сообщение в потоке электронной почты содержит содержимое всех предыдущих сообщений. Таким образом, просмотр последнего сообщения дает полный контекст беседы, которая произошла в потоке. Цепочки сообщений электронной почты определяют такие сообщения, чтобы проверяющие могли просмотреть часть собранных документов без потери контекста.

Email поток анализирует каждый поток электронной почты и деконструирует его для отдельных сообщений. Каждая цепочка писем представляет собой цепочку отдельных сообщений. Обнаружение электронных данных (предварительная версия) анализирует все сообщения электронной почты в наборе для проверки, чтобы определить, содержит ли сообщение электронной почты уникальное содержимое или цепочка (родительские сообщения) содержится в окончательном сообщении в потоке электронной почты. Email сообщения делятся на четыре инклюзивных значения:

Инклюзивное сообщение. Инклюзивное электронное письмо является окончательным сообщением электронной почты в потоке электронной почты и содержит все предыдущее содержимое этого потока электронной почты.
Инклюзивный минус. Сообщение электронной почты обозначается как инклюзивное минус , если с определенным сообщением в потоке электронной почты связано одно или несколько вложений. Проверяющий может использовать значение "Полное сообщение без вложения", чтобы определить, какие сообщения в цепочке писем имеют связанные вложения.
Инклюзивная копия. Сообщение электронной почты считается инклюзивной копией , если оно является точной копией инклюзивного или инклюзивного сообщения минус.
Нет. Значение None указывает, что содержимое сообщения содержится по крайней мере в одном другом сообщении электронной почты, помеченном как инклюзивное или инклюзивное минус.

Чем это отличается от бесед в Outlook?

С первого взгляда это похоже на группы бесед в Outlook. Однако существуют некоторые важные различия. Рассмотрим беседу по электронной почте, которая была разделена на две беседы; Например, кто-то ответил на сообщение, которое не является последним в беседе, поэтому два последних сообщения в беседе содержат уникальное содержимое.

Outlook по-прежнему группирует сообщения электронной почты в одну беседу; Чтение только последнего сообщения электронной почты может пропустить контекст второго к последнему сообщению электронной почты, который также содержит уникальное содержимое. Поскольку потоки электронной почты анализируют каждое сообщение на отдельные компоненты и сравнивают их, потоки электронной почты помечают оба последних двух электронных письма как инклюзивные, гарантируя, что вы не пропустите какой-либо контекст до тех пор, пока вы читаете все сообщения, помеченные как инклюзивные.

Темы

В этом разделе можно задать следующие параметры для тем:

Темы: Если этот параметр включен, темы кластеризация выполняются в рамках рабочего процесса при выполнении аналитики данных в наборе для проверки.
Максимальное количество тем: Указывает максимальное количество тем, которые можно создать при выполнении аналитики данных в наборе для проверки.
Включите числа в темы: Если этот параметр включен, числа (которые идентифицируют тему) включаются при создании тем.
Динамическое изменение максимального числа тем: В некоторых ситуациях в наборе для проверки может быть недостаточно документов для создания нужного количества тем. Когда этот параметр включен, eDiscovery динамически настраивает максимальное количество тем, а не пытается принудительно установить максимальное количество тем.

При создании нового документа вы обычно начинаете с одной или нескольких идей, которые вы хотите передать в документе, а затем создаете документ, используя слова, которые соответствуют этим идеям. Чем более распространена идея, тем чаще встречаются слова, связанные с этой идеей. Этот метод также согласуется с тем, как читатели используют документы. При чтении документа важно понимать main идей, которые документ пытается передать. Это также включает в себя, где появляются идеи и какие отношения между идеями.

Этот процесс можно расширить, чтобы рецензент обнаружения электронных данных хотел использовать набор документов в деле. Они хотят узнать, какие идеи присутствуют в наборах для проверки и в каких документах говорится об этих идеях. Если они находят конкретный интересующий документ, они хотят иметь возможность видеть документы, в которых обсуждаются аналогичные идеи.

Функция Темы в обнаружении электронных данных пытается имитировать то, как люди рассуждают о документах, анализируя темы , обсуждаемые в наборе для проверки, и присваивая тему документам в наборе для проверки. В обнаружении электронных данных темы идут еще дальше и определяют доминирующую тему в каждом наборе и документе для проверки. Основной темой является тема, которая чаще всего появляется в документе.

Как работают темы?

Функция Темы анализирует документы с текстом в наборе для проверки для анализа общих тем, которые отображаются во всех документах в наборе для проверки. eDiscovery присваивает эти темы документам, в которых они появляются. Он также помечает каждую тему словами, которые используются в документах, которые представляют эту тему. Поскольку документ может содержать различные типы предметов, обнаружение электронных данных часто назначает несколько тем для проверки наборов и документов. Это называется списком тем. Тема, наиболее заметная в наборе для проверки или документе, обозначена в качестве основной темы.

Настройка тем

Темы поддерживаются для вариантов и применяются ко всем наборам проверки в них. Вы можете настроить параметры для тем при создании нового дела или обновить параметры темы для существующего случая.

Чтобы настроить темы в случае, выполните следующие действия.

Перейдите на портал Microsoft Purview и выполните вход, используя учетные данные для учетной записи пользователя, назначенной разрешениями на обнаружение электронных данных.
Выберите решение eDiscovery карта, а затем выберите Варианты (предварительная версия) на панели навигации слева.
Выберите вариант, выберите Параметры регистра.
На странице Параметры вариантов выберите Поиск & аналитики.
Выберите следующие параметры темы.
- Максимальное количество тем: Указывает максимальное количество тем, которые можно создать при выполнении аналитики данных в наборах для проверки, включенных в случай. Дополнительные сведения об ограничениях см. в разделе Ограничения в обнаружении электронных данных.
- Включите числа в темы: Числа (идентифицирующие тему) включаются при создании тем.
- Динамическое изменение максимального числа тем: В некоторых ситуациях в наборе для проверки может оказаться недостаточно документов, чтобы получить требуемое количество тем для дела. Если этот параметр включен, максимальное число тем настраивается динамически, а не пытается принудительно применить максимальное число тем.
Если необходимо исключить ключевые слова, связанные с темами, введите текст или регулярное выражение в поле Пропустить текст . В поле Применить к выберите Темы , чтобы применить текст или регулярное выражение ко всем темам.
Выберите Сохранить.

После создания нового дела аналитика автоматически запускается для данных при добавлении наборов проверки в дело. Темы для наборов проверки создаются в рамках обработки аналитики.

Запрос набора для проверки

Если установить флажок Автоматически создавать сохраненный поиск для проверки после аналитики, обнаружение электронных данных автоматически создает запрос набора проверки с именем For Review.

Этот запрос отфильтровывает повторяющиеся элементы из набора для проверки, что позволяет быстро просмотреть уникальные элементы в наборе для проверки. Этот запрос создается только при запуске аналитики для набора для проверки в деле. Дополнительные сведения о запросах набора проверки см. в разделе Запрос данных в наборе для проверки.

Игнорирование текста

Бывают ситуации, когда определенный текст снижает качество аналитики, например длинные заявления об отказе от ответственности, которые добавляются в сообщения электронной почты независимо от содержимого сообщения. Если вы знаете текст, который следует игнорировать, его можно исключить из аналитики, указав текстовую строку и функциональность аналитики (почти дубликаты, потоки электронной почты, темы и релевантность), для чего текст должен быть исключен. Также поддерживается использование регулярных выражений (RegEx) для игнорируемого текста.

Распознавание текста (OCR)

Если этот параметр включен, обработка OCR выполняется в файлах изображений. Обработка OCR выполняется в следующих ситуациях:

При добавлении источников данных в случай. При применении распознавания текста к файлам изображений текст в этих файлах доступен в результатах поиска. Обработка OCR выполняется во время расширенного процесса индексирования (если этот параметр выбран в поисковом запросе). OCR выполняется только для элементов, которые обрабатываются во время расширенного индексирования. Например, если при расширенном индексировании обрабатывается большой PDF-файл, который частично индексируется или имеются другие ошибки индексирования, к файлу применяется OCR. Обработка OCR выполняется только для файлов, которые переиндексированы во время расширенного процесса индексирования. Это означает, что могут возникнуть ситуации, когда источники данных добавляются в дело, но некоторые вложения электронной почты не будут обрабатываться для OCR, так как эти файлы не обрабатываются во время расширенного индексирования.
При добавлении содержимого из других источников данных. Это относится к источникам данных, которые не связаны с делом и когда результаты поиска добавляются в набор для проверки.

После добавления данных в набор для проверки текст изображения можно просмотреть, выполнить поиск, пометить тегами и проанализировать. Извлеченный текст можно просмотреть в средстве просмотра текста выбранного файла изображения в наборе для проверки. Дополнительные сведения см. в разделе:

Поделиться через