Поделиться через


Использование автоматической маркировки для пользовательской классификации текста

Процесс маркировки является важной частью подготовки набора данных. Так как для этого процесса требуется много времени и усилий, вы можете использовать функцию автоматической маркировки документов с классами, на которые вы хотите разделить их. В настоящее время можно запускать задания автоматической маркировки на основе модели с помощью моделей GPT, где можно немедленно активировать задание автоматической маркировки без предварительного обучения модели. Эта функция позволяет сэкономить время и усилия, необходимые для ручной маркировки документов.

Необходимые компоненты

Прежде чем использовать автоматическую маркировку с GPT, вам потребуется:

  • Успешно созданный проект с настроенной учетной записью Хранилища BLOB-объектов Azure.
  • Текстовые данные, отправленные в учетную запись хранения.
  • Имена классов, которые имеют смысл. Документы меток моделей GPT основаны на именах предоставленных классов.
  • Помеченные данные не требуются.
  • Ресурс и развертывание Azure OpenAI.

Активация задания автоматической маркировки

При активации задания автоматической маркировки с помощью GPT взимается плата за ресурс Azure OpenAI в отношении потребления. Плата взимается с оценки количества маркеров в каждом документе, который выполняется автоматически. См. страницу цен Azure OpenAI для подробной разбивки цен на токен различных моделей.

  1. В меню навигации слева выберите метки данных.

  2. Нажмите кнопку "Автокламбель" в области действий справа от страницы.

    Снимок экрана, на котором показано, как активировать задание автотега из области действий.

  3. Нажмите кнопку "Автонастрока" с помощью GPT и нажмите кнопку "Далее".

    Снимок экрана: выбор модели для автоматической маркировки.

  4. Выберите ресурс и развертывание Azure OpenAI. Для продолжения необходимо создать ресурс Azure OpenAI и развернуть модель .

    Снимок экрана: выбор ресурса и развертываний OpenAI

  5. Выберите классы, которые нужно включить в задание автонастроения. По умолчанию выбираются все классы. Наличие описательных имен для классов и включение примеров для каждого класса рекомендуется обеспечить хорошее качество меток с помощью GPT.

    Снимок экрана: метки для включения в задание автотега.

  6. Выберите документы для автоматической маркировки. Рекомендуется выбрать из фильтра документы без меток.

    Примечание.

    • Если документ был автоматически помечен, но эта метка уже определена пользователем, используется только определяемая пользователем метка.
    • Вы можете просмотреть документы, щелкнув имя документа.

    Снимок экрана: документы, которые должны быть включены в задание автотагага.

  7. Нажмите кнопку "Пуск", чтобы активировать задание автоматической маркировки. Вы должны быть перенаправлены на страницу автоматической маркировки, отображающую инициированные задания автоматической маркировки. Задания автоматической маркировки могут занять от нескольких секунд до нескольких минут в зависимости от количества включенных документов.

    Снимок экрана: экран проверки для задания автотега.


Просмотр документов с автоматической маркировкой

После завершения задания автоматической маркировки вы увидите выходные документы на странице меток данных Language Studio. Выберите Просмотреть документы с автоматическими метками, чтобы просмотреть документы с примененной функцией Автоматическая маркировка.

Снимок экрана: автоматически помеченные документы

Документы, которые были автоматически классифицированы, предложили метки в области действий, выделенной фиолетовым цветом. Каждая предлагаемая метка имеет два селектора (флажок и значок отмены), которые позволяют принимать или отклонять автоматическую метку.

После принятия метки фиолетовый цвет изменяется на синий по умолчанию, и метка включается в любое дополнительное обучение модели, став пользователем определенной меткой.

После принятия или отклонения меток для автоматически помеченных документов нажмите кнопку "Сохранить метки ", чтобы применить изменения.

Примечание.

  • Перед принятием документов рекомендуется выполнять проверку автоматически помеченных документов.
  • Все метки, которые не были приняты, удаляются при обучении модели.

Снимок экрана: прием и отклонение автоматически помеченных документов.

Следующие шаги