Поделиться через


Сведения о прогнозном кодировании в eDiscovery (премиум) (предварительная версия)

Совет

Обнаружение электронных данных (предварительная версия) теперь доступно на новом портале Microsoft Purview. Дополнительные сведения об использовании нового интерфейса обнаружения электронных данных см. в статье Сведения об обнаружении электронных данных (предварительная версия).

Важно!

Прогнозное кодирование прекращено с 31 марта 2024 г. и недоступно в новых случаях обнаружения электронных данных. Для существующих случаев с обученными моделями прогнозного кодирования можно продолжать применять существующие фильтры оценки для проверки наборов. Однако вы не можете создавать или обучать новые модели.

Модуль прогнозного программирования в eDiscovery (премиум) использует интеллектуальные возможности машинного обучения, чтобы сократить количество просматриваемого содержимого. Прогнозное кодирование помогает сократить и отчислять большие объемы содержимого дела до соответствующего набора элементов, которые можно определить для проверки. Это достигается путем создания и обучения собственных моделей прогнозного кодирования, которые помогают определить приоритет при проверке наиболее релевантных элементов в наборе для проверки.

Модуль прогнозного кодирования предназначен для упрощения управления моделью в наборе для проверки и предоставления итеративного подхода к обучению модели, чтобы вы могли быстрее приступить к работе с возможностями машинного обучения в eDiscovery (Премиум). Чтобы приступить к работе, вы можете создать модель, пометив не более 50 элементов как релевантные или не релевантные. Система использует это обучение для применения прогнозных оценок к каждому элементу в наборе для проверки. Это позволяет фильтровать элементы на основе оценки прогнозирования, что позволяет сначала просмотреть наиболее релевантные (или не релевантные) элементы. Если вы хотите обучить модели с более высокой точностью и скоростью отзыва, вы можете продолжать маркировку элементов в последующих раундах обучения, пока модель не стабилизируется.

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

Рабочий процесс прогнозного программирования

Ниже приведены общие сведения и описание рабочего процесса прогнозирования каждого шага. Более подробное описание концепций и терминологии процесса прогнозного кодирования см. в справочнике по прогнозному кодированию.

Рабочий процесс прогнозирования кодирования.

  1. Создайте новую модель прогнозного кодирования в наборе для проверки. Первым шагом является создание новой модели прогнозного кодирования в наборе для проверки. Для создания модели необходимо иметь не менее 2000 элементов в наборе для проверки. После создания модели система определит количество элементов, используемых в качестве набора элементов управления. Набор элементов управления используется в процессе обучения для оценки прогнозных оценок, которые модель присваивает элементам с метками, выполняемыми во время циклов обучения. Размер набора элементов зависит от количества элементов в наборе для проверки, а также уровня достоверности и предела значений ошибок, заданных при создании модели. Элементы в наборе элементов управления никогда не изменяются и не могут быть идентифицированы пользователями.

    Дополнительные сведения см. в статье Создание модели прогнозного кодирования.

  2. Завершите первый раунд обучения, помечая элементы как релевантные или не релевантные. Следующий шаг — обучить модель, начав первый раунд обучения. При запуске обучающего раунда модель случайным образом выбирает дополнительные элементы из набора для проверки, который называется обучающий набор. Эти элементы (как из набора элементов управления, так и из обучающего набора) представлены вам, чтобы вы могли пометить каждый из них как "релевантный" или "не релевантный". Релевантность основана на содержимом элемента, а не на метаданных документа. После завершения процесса маркировки в обучаемом цикле модель будет "учиться" в зависимости от того, как вы помечаете элементы в обучаемом наборе. На основе этого обучения модель будет обрабатывать элементы в наборе для проверки и применять прогнозную оценку к каждому из них.

    Дополнительные сведения см. в разделе Обучение модели прогнозного кодирования.

  3. Примените фильтр оценки прогнозирования к элементам в наборе для проверки. После завершения предыдущего шага обучения следующий шаг — применить фильтр оценки прогнозирования к элементам в проверке, чтобы отобразить элементы, которые модель определила как наиболее релевантные (кроме того, можно использовать фильтр прогнозирования для отображения элементов, которые не являются релевантными). При применении фильтра прогнозирования необходимо указать диапазон прогнозирующих оценок для фильтрации. Диапазон оценок прогнозирования падает от 0 до 1, при этом 0 является "не релевантными", а 1 — релевантными. Как правило, элементы с оценками прогноза от 0 до 0,5 считаются "не релевантными", а элементы с прогнозными оценками от 0,5 до 1 считаются актуальными.

    Дополнительные сведения см. в разделе Применение фильтра прогнозирования к набору для проверки.

  4. Выполняйте дополнительные раунды обучения, пока модель не стабилизируется. Вы можете выполнить дополнительные раунды обучения, если вы хотите создать модель с более высокой точностью прогнозирования и увеличенной скоростью отзыва. Частота отзыва измеряет долю элементов, которые прогнозировала модель, были релевантными среди элементов, которые действительно актуальны (те, которые вы пометили как релевантные во время обучения). Оценка скорости отзыва варьируется от 0 до 1. Оценка ближе к 1 указывает, что модель будет определять более релевантные элементы. В новом раунде обучения вы помечаете дополнительные элементы в новом обучаемом наборе. После завершения этого цикла обучения модель обновляется на основе новых знаний из последнего раунда маркировки элементов в обучающем наборе. Модель снова обработает элементы в наборе для проверки и применит новые оценки прогнозирования. Вы можете продолжать выполнять циклы обучения, пока модель не стабилизируется. Модель считается стабилизирующей, когда скорость оттока после последнего раунда обучения составляет менее 5%. Коэффициент оттока определяется как процент элементов в наборе для проверки, где оценка прогноза изменялась между раундами обучения. На панели мониторинга прогнозного кодирования отображаются сведения и статистика, которые помогают оценить стабильность модели.

  5. Примените фильтр "окончательной" оценки прогнозирования, чтобы проверить элементы набора для определения приоритетов проверки. После завершения всех раундов обучения и стабилизации модели последним шагом является применение окончательной оценки прогноза к набору для проверки, чтобы определить приоритетность проверки соответствующих и не релевантных элементов. Это та же задача, которую вы выполняли на шаге 3, но на этом этапе модель стабильна, и вы не планируете выполнять больше раундов обучения.