Начало работы с обучаемыми классификаторами
Обучаемый классификатор Microsoft Purview — это инструмент, который можно обучить распознавать различные типы содержимого, предоставляя его примеры для просмотра. После обучения его можно использовать для идентификации элемента для применения меток конфиденциальности Office, политик соответствия требованиям связи и политик меток хранения.
Для реализации настраиваемого обучаемого классификатора необходимо выполнить два шага:
- Укажите два набора выборочных данных (выбранных людьми).
- Набор, содержащий только элементы, принадлежащие категории.
- Набор, содержащий только элементы, которые не относятся к категории.
- Проверьте способность классификатора обнаруживать совпадения.
В этой статье объясняется, как создать и протестировать пользовательский классификатор.
Дополнительные сведения о различных типах классификаторов см. в статье Сведения о обучаемых классификаторах.
Совет
Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас в центре пробных версий Microsoft Purview. Сведения о регистрации и условиях пробной версии.
Предварительные условия
Требования к лицензированию
Классификаторы — это функция Microsoft 365 E3 и соответствия требованиям E5. Чтобы использовать их, у вас должна быть одна из этих подписок.
Разрешения
Чтобы использовать классификаторы в следующих сценариях, вам потребуются следующие разрешения:
Сценарий | Необходимые разрешения роли |
---|---|
Политика меток хранения | Управление записями Управление хранением |
Политика меток конфиденциальности | Администратор безопасности Администратор соответствия требованиям Администратор данных соответствия требованиям |
Политика соответствия требованиям к обмену данными | Администратор управления внутренними рисками Администратор надзорной проверки |
Важно!
По умолчанию только пользователь, создающий пользовательский классификатор, может обучать и просматривать прогнозы, сделанные этим классификатором.
Подготовка для настраиваемого обучаемого классификатора
Перед изучением полезно понять, что связано с созданием настраиваемого обучаемого классификатора.
Общий рабочий процесс
Дополнительные сведения об общем рабочем процессе создания настраиваемых обучаемых классификаторов см. в разделе Процесс создания настраиваемых обучаемых классификаторов.
Начальный контент
Чтобы обучаемый классификатор смог независимо и точно определить, что элемент принадлежит к определенной категории содержимого, необходимо представить ему множество примеров типа контента, назначаемого в категории. Такая подача примеров в обучаемый классификатор называется засеиванием. Человек должен выбирать начальное содержимое, и это содержимое должно включать два набора данных: один из них содержит только элементы, строго представляющие содержимое, которое классификатор предназначен для обнаружения (положительные примеры), а второй набор элементов, которые явно не принадлежат (отрицательные выборки).
Для обучения классификатора требуется не менее 50 положительных выборок (до 500) и не менее 150 отрицательных выборок (до 1500). Чем больше выборок вы предоставите, тем более точными будут прогнозы, которые делает классификатор. Обучаемый классификатор обрабатывает до 2000 последних примеров (по созданным файлам метки даты и времени).
Совет
Для достижения наилучших результатов ищите в наборе примеров не менее 200 элементов, которые включают не менее 50 положительных примеров и не менее 150 отрицательных примеров.
Как создать обучаемый классификатор
Выберите соответствующую вкладку для используемого портала. В зависимости от плана Microsoft 365 Портал соответствия требованиям Microsoft Purview будет прекращена или будет прекращена в ближайшее время.
Дополнительные сведения о портале Microsoft Purview см. на портале Microsoft Purview. Дополнительные сведения о портале соответствия требованиям см. в разделе Портал соответствия требованиям Microsoft Purview.
В предварительной версии: Следующий процесс автоматизирует тестирование обучаемых классификаторов и сокращает рабочий процесс создания с 12 дней до двух дней. (В некоторых случаях процесс может занять всего несколько часов.)
Соберите от 50 до 500 элементов начального содержимого, которые строго представляют данные, которые классификатор должен положительно определить как в категории. Список поддерживаемых типов файлов см. в статье Расширения имен файлов для обхода по умолчанию и проанализированные типы файлов в SharePoint Server.
Соберите второй набор начального содержимого (от 150 до 1500 элементов), который представляет данные, которые не относятся к категории.
Поместите положительное и отрицательное начальное содержимое в отдельные папки SharePoint. Каждая папка должна быть выделена для хранения только начального содержимого. Запишите URL-адрес сайта, библиотеки и папки для каждого набора.
Совет
Если вы создаете новый сайт и папку SharePoint для начальных данных, предоставьте по крайней мере час индексации этого расположения перед созданием обучаемого классификатора, который будет использовать эти начальные данные.
Войдите на портал Microsoft Purview или Портал соответствия требованиям Microsoft Purview с правами администратора соответствия требованиям или администратора безопасности и перейдите в разделКлассификаторыклассификации> данных для защиты > от потери данных.
Выберите вкладку Обучаемые классификаторы .
Выберите Создать обучаемый классификатор.
Добавьте источник положительных примеров: выберите url-адрес сайта, библиотеки и папки SharePoint для начального содержимого, которое должно быть обнаружено классификатором, и нажмите кнопку Далее.
Добавьте источник отрицательных примеров: выберите сайт, библиотеку и URL-адрес папки SharePoint для начального содержимого, которое должно игнорироваться классификатором, а затем нажмите кнопку Далее.
Просмотрите параметры и выберите Создать обучаемый классификатор.
В течение 24 часов или менее обучаемый классификатор обрабатывает начальные данные и создает модель прогнозирования. Состояние классификатора во время обработки начальных данных — Выполняется. Когда классификатор завершит обработку начальных данных, состояние меняется на Обучение и элементы тестируются.
После завершения обучения и проверки элементов опубликуйте классификатор, выбрав Опубликовать для использования.
После публикации классификатор будет доступен в качестве условия для автоматической маркировки Office с метками конфиденциальности, политики автоматического применения меток хранения на основе условия и в разделе Соответствие требованиям к обмену данными.
Тестирование классификатора
После того как обучаемый классификатор обработает достаточно положительных и отрицательных выборок для создания модели прогнозирования, необходимо протестировать прогнозы, которые он делает. При тестировании классификатора вы проверяете правильность его прогнозов. После обработки всех данных просмотрите результаты вручную и проверьте, является ли каждый прогноз правильным, неправильным или вы не уверены. Корпорация Майкрософт использует эти отзывы в агрегированном виде для улучшения модели прогнозирования.