Обучение модели прогнозного кодирования (предварительная версия)
Совет
Обнаружение электронных данных (предварительная версия) теперь доступно на новом портале Microsoft Purview. Дополнительные сведения об использовании нового интерфейса обнаружения электронных данных см. в статье Сведения об обнаружении электронных данных (предварительная версия).
Важно!
Прогнозное кодирование прекращено с 31 марта 2024 г. и недоступно в новых случаях обнаружения электронных данных. Для существующих случаев с обученными моделями прогнозного кодирования можно продолжать применять существующие фильтры оценки для проверки наборов. Однако вы не можете создавать или обучать новые модели.
После создания модели прогнозного кодирования в Microsoft Purview eDiscovery (Премиум) следующим шагом является выполнение первого раунда обучения модели на предмет релевантного и несуществующего содержимого в наборе для проверки. После завершения первого цикла обучения можно выполнить последующие раунды обучения, чтобы улучшить способность модели прогнозировать релевантное и не релевантное содержимое.
Сведения о рабочем процессе прогнозирования см . в статье Сведения о прогнозном кодировании в eDiscovery (премиум)
Совет
Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас в центре пробных версий Microsoft Purview. Сведения о регистрации и условиях пробной версии.
Перед обучением модели
- Во время обучающего раунда помечайте элементы как Релевантные или Не релевантные в зависимости от релевантности содержимого в документе. Не основывайте свое решение на значениях в полях метаданных. Например, для сообщений электронной почты или бесед Teams не основывайте свое решение о присвоении меток участникам сообщения.
Обучение модели в первый раз
Примечание.
В течение ограниченного времени этот классический интерфейс обнаружения электронных данных также доступен на новом портале Microsoft Purview. Включите классический интерфейс eDiscovery портала соответствия требованиям в параметрах интерфейса обнаружения электронных данных (предварительная версия) для отображения классического интерфейса на новом портале Microsoft Purview.
В Портал соответствия требованиям Microsoft Purview откройте дело обнаружения электронных данных (премиум) и выберите вкладку Проверка наборов данных.
Откройте набор для проверки и выберите Аналитика>Управление прогнозным кодом (предварительная версия).
На странице Модели прогнозного кодирования (предварительная версия) выберите модель, которую требуется обучить.
На вкладке Обзор в разделе Раунд 1 выберите Начать следующий раунд обучения.
Отобразится вкладка Обучение и содержит 50 элементов, которые можно пометить.
Просмотрите каждый документ и выберите Релевантный или Не относится в нижней части области чтения, чтобы пометить его.
После добавления меток для всех 50 элементов нажмите кнопку Готово.
Системе потребуется несколько минут, чтобы "научиться" на основе меток и обновить модель. По завершении этого процесса на странице Модели прогнозного кодирования (предварительная версия) отобразится состояние Готово.
Выполнение дополнительных раундов обучения
После первого цикла обучения можно выполнить последующие раунды обучения, выполнив действия, описанные в предыдущем разделе. Единственное различие заключается в том, что количество обучающих раундов будет обновлено на вкладке Обзор модели. Например, после выполнения первого раунда обучения можно выбрать Начать следующий раунд обучения , чтобы начать второй раунд обучения. И так далее.
Каждый раунд обучения (выполняющийся и завершенный) отображается на вкладке Обучение модели. При выборе учебного раунда отображается всплывающее окно со сведениями и метриками для этого раунда.
Что происходит после выполнения раунда обучения
После выполнения первого цикла обучения запускается задание, которое выполняет следующие действия:
В зависимости от того, как вы помечаете 40 элементов в обучающем наборе, модель учится на ваших метках и обновляется, чтобы стать более точным.
Затем модель обрабатывает каждый элемент во всем наборе проверки и присваивает оценку прогноза в диапазоне от 0 (не относится) к 1 (релевантно).
Модель назначает оценку прогнозирования 10 элементам в наборе элементов управления, помеченных во время цикла обучения. Модель сравнивает прогнозную оценку этих 10 элементов с фактической меткой, назначенной элементу во время цикла обучения. На основе этого сравнения модель определяет следующую классификацию (называемую матрицей путаницы набора элементов управления) для оценки производительности прогнозирования модели:
Label | Модель прогнозирует, что элемент является актуальным | Модель прогнозирует, что элемент не является релевантными |
---|---|---|
Рецензент помечает элемент как релевантный | Истинноположительный результат | Ложноположительный результат |
Рецензент помечает элемент как не релевантный | Ложноотрицательный результат | Истинный отрицательный |
На основе этих сравнений модель наследует значения для метрик F-оценки, точности и отзыва, а также погрешности для каждой из них. Оценки для этих метрик производительности модели отображаются на всплывающей странице для цикла обучения. Описание этих метрик см. в справочнике по прогнозному кодированию.
- Наконец, модель определяет следующие 50 элементов, которые будут использоваться для следующего цикла обучения. На этот раз модель может выбрать 20 элементов из набора элементов управления и 30 новых элементов из набора для проверки и назначить их в качестве обучающий набор для следующего раунда. Выборка для следующего раунда обучения не является равномерной выборкой. Модель оптимизирует выборку элементов из набора для проверки, чтобы выбрать элементы, где прогноз является неоднозначным, что означает, что оценка прогнозирования находится в диапазоне 0,5. Этот процесс называется необъективным выбором.
Что происходит после выполнения последующих раундов обучения
После выполнения последующих раундов обучения (после первого цикла обучения) модель выполняет следующие действия:
- Модель обновляется на основе меток, примененных к обучающей группе в этом цикле обучения.
- Система оценивает прогнозную оценку модели по элементам в наборе элементов управления и проверка, соответствует ли оценка способу маркировки элементов в наборе элементов управления. Оценка выполняется для всех помеченных элементов из набора элементов управления для всех раундов обучения. Результаты этой оценки включаются в панель мониторинга на вкладке Обзор для модели.
- Обновленная модель повторно обрабатывает каждый элемент в наборе для проверки и присваивает каждому элементу обновленную оценку прогноза.
Дальнейшие действия
После выполнения первого раунда обучения можно выполнить дополнительные раунды обучения или применить фильтр оценки прогноза модели к набору для проверки, чтобы просмотреть элементы, которые модель предсказала как релевантные или не релевантные. Дополнительные сведения см. в разделе Применение фильтра оценки прогноза к набору для проверки.