Справочник по прогнозному кодированию (предварительная версия)
Совет
Обнаружение электронных данных (предварительная версия) теперь доступно на новом портале Microsoft Purview. Дополнительные сведения об использовании нового интерфейса обнаружения электронных данных см. в статье Сведения об обнаружении электронных данных (предварительная версия).
Важно!
Прогнозное кодирование прекращено с 31 марта 2024 г. и недоступно в новых случаях обнаружения электронных данных. Для существующих случаев с обученными моделями прогнозного кодирования можно продолжать применять существующие фильтры оценки для проверки наборов. Однако вы не можете создавать или обучать новые модели.
В этой статье описываются основные понятия и метрики средства прогнозирования программирования в Microsoft Purview eDiscovery (Премиум). Разделы статьи перечислены в алфавитном порядке.
Совет
Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас в центре пробных версий Microsoft Purview. Сведения о регистрации и условиях пробной версии.
Уровень вероятности
Уровень достоверности является дополнительным параметром при создании модели прогнозного кодирования. Он определяет, что метрики производительности модели (например, богатство, точность и полнота) попадают в указанный диапазон (определяемый предел погрешности, определенный для модели), который представляет истинные значения прогнозируемых оценок, присваиваемых моделью элементам в наборе для проверки. Значения для уровня достоверности и предела ошибки также помогают определить, сколько элементов включено в набор элементов управления. Значение по умолчанию для уровня достоверности — 0,95% или 95%.
Набор элементов управления
Набор элементов управления используется в процессе обучения модели прогнозного кодирования. Набор элементов управления предназначен для оценки прогнозируемых оценок, которые модель присваивает элементам с метками, которые вы выполняете во время обучающих раундов. Размер набора элементов зависит от количества элементов в наборе для проверки, а также уровня достоверности и предела значений ошибок, заданных при создании модели. Элементы в наборе элементов управления никогда не изменяются и не могут быть идентифицированы пользователями. Общее количество элементов в наборе элементов управления отображается на всплывающей странице для обучающего раунда.
Матрица путаницы набора элементов управления
После завершения цикла обучения модель назначает оценку прогнозирования 10 элементам в наборе элементов управления, помеченных во время цикла обучения. Модель сравнивает прогнозную оценку этих 10 элементов с фактической меткой, назначенной элементу во время цикла обучения. На основе этого сравнения модель определяет следующие классификации для оценки производительности прогнозирования модели:
Label | Модель прогнозирует, что элемент является актуальным | Модель прогнозирует, что элемент не имеет значения |
---|---|---|
Рецензент помечает элемент как релевантный | Истинноположительный результат | Ложноположительный результат |
Рецензент помечает элемент как не релевантный | Ложноотрицательный результат | Истинный отрицательный |
На основе этих сравнений модель наследует значения для метрик F-оценки, точности и отзыва, а также погрешности для каждой из них. Количество типов путаницы из матрицы отображается на всплывающей странице обучающего раунда.
F-оценка
Оценка F — это средневзвешенный показатель оценок для метрик точности и отзыва. Диапазон оценок для этой метрики — от 0 до 1. Оценка ближе к 1 указывает, что модель будет более точно обнаруживать соответствующие элементы. Метрика F-score отображается на панели мониторинга модели и на всплывающей странице для каждого раунда обучения.
Погрешность
Предел ошибки является дополнительным параметром при создании режима прогнозного кодирования. Он указывает степень ошибки в метриках производительности (например, насыщенность, точность и отзыв), которая является производным от случайной выборки элементов в наборе элементов. Для снижения погрешности требуется больший набор элементов управления, чтобы метрики производительности модели попадали в меньший диапазон. Значения поля ошибки и уровня достоверности также помогают определить, сколько элементов включено в набор элементов управления. Значение по умолчанию для поля ошибки — 0,05% или 5%.
Стабильность модели
Стабильность модели указывает на способность модели точно прогнозировать, является ли документ в наборе для проверки релевантными или нет. Если модель нестабильна, может потребоваться выполнить больше циклов обучения, чтобы обеспечить стабильность модели. Если модель стабильна, больше не потребуется выполнять раунды обучения. Панель мониторинга модели указывает текущее состояние стабильности модели. Если модель стабильна, метрики производительности достигли уровня, соответствующего параметрам для уровня достоверности и погрешности.
Частота отмены
Коэффициент отмены — это процент элементов в наборе для проверки, где оценка прогноза изменялась между раундами обучения. Модель считается стабильной, если скорость отмены менее 5 %. Метрика скорости отмены отображается на панели мониторинга модели и на всплывающей странице для каждого раунда обучения. Частота опровернутого первого раунда обучения равна нулю, так как нет предыдущей оценки прогноза для отмены.
Точность
Метрика точности измеряет долю элементов, которые являются релевантными среди элементов, которые прогнозировала модель. Это означает, что элементы в элементе управления задаются, где рецензент метка является релевантной и прогнозируемой моделью. Диапазон оценок для этой метрики — от 0 до 1. Оценка ближе к 1 указывает, что модель будет определять меньше элементов, не относящихся к делу. Метрика точности отображается на панели мониторинга модели и на всплывающей странице для каждого раунда обучения.
Оценка прогнозирования
Это оценка, которую модель присваивает каждому документу в наборе для проверки. Оценка основана на релевантности документа по сравнению с обучением модели в рамках раундов обучения. Как правило, элементы с оценками прогноза от 0 до 0,5 считаются не релевантными, а элементы с оценками прогноза от 0,5 до 1 считаются релевантными. Оценка прогнозирования содержится в поле метаданных документа. Фильтр прогнозирования можно использовать для отображения элементов в наборе для проверки, попадающих в указанный диапазон прогнозирования.
Недавнее
Метрика отзыва измеряет долю элементов, которые прогнозировала модель, были релевантными среди соответствующих элементов. Это означает, что рецензент также помечает соответствующие элементы в наборе элементов управления, прогнозируемых моделью. Диапазон оценок для этой метрики — от 0 до 1. Оценка ближе к 1 указывает, что модель будет определять большую часть соответствующих элементов. Метрика отзыва отображается на панели мониторинга модели и на всплывающей странице для каждого раунда обучения.
Набор для проверки
Набор для проверки предоставляет область модели прогнозного кодирования. При создании новой модели для проверяемого набора элементы для набора элементов управления и обучающих наборов выбираются из набора для проверки. Когда модель назначает прогнозирующие оценки, она назначает этим оценкам элементы в проверке. Перед созданием модели прогнозного кодирования необходимо добавить все элементы в набор для проверки. При добавлении элементов после создания модели им не будет присвоена оценка прогнозирования.
Богатство
Метрика насыщенности измеряет процент элементов набора проверки, которые модель прогнозирует как релевантные. Диапазон оценок для этой метрики — от 0 до 1. Метрика насыщенности отображается на панели мониторинга модели.
Примеры элементов
Термин выборочные элементы — это ссылка на случайную выборку элементов в наборе для проверки (который содержит текст), которые выбираются и связаны с набором элементов управления при создании модели прогнозного кодирования. Для каждого раунда обучения также выбирается случайная выборка элементов. Элементы, выбранные для набора элементов управления модели, никогда не включаются в обучающий набор для этой модели. Верно и обратное: элементы обучаемого набора никогда не включаются в набор элементов управления.
Обучающий набор
Модель случайным образом выбирает элементы из набора для проверки и добавляет их в обучающий набор. Во время цикла обучения элементы из обучающего набора (в дополнение к элементам из набора элементов управления) будут представлены вам, чтобы вы могли пометить каждый из них как "релевантный" или "не релевантный". Этот процесс маркировки или "обучения" помогает модели узнать, как спрогнозировать, какие элементы в обзоре являются релевантными или не релевантными. Каждый раз, когда вы выполняете обучающий раунд, модель выбирает дополнительные элементы из проверки и добавляет их в обучающий набор для этого раунда обучения. Элементы из набора элементов управления никогда не выбираются для обучаемого набора.