Поделиться через


Добавление меток к данным в Language Studio

Перед обучением модели необходимо добавить метки к документам с настраиваемыми сущностями, которые требуется извлечь. Маркировка данных — важный шаг в жизненном цикле разработки. На этом шаге можно создать типы сущностей, которые требуется извлечь из данных, и добавить метки к этим сущностям в документах. Эти данные будут использоваться на следующем шаге при обучении модели, чтобы ваша модель могла учиться по данным с предоставленными метками. Если у вас уже есть данные с метками, вы можете импортировать их в проект, но при этом необходимо убедиться в том, что данные имеют допустимый формат. Дополнительные сведения об импорте данных с метками в проект см. в статье о создании проекта.

Перед созданием пользовательской модели распознавания именованных сущностей необходимо сначала пометить данные метками. Если данные не имеют меток, их можно снабдить метками в Language Studio. Данные с метками предоставляют модели сведения о том, как интерпретировать каждый текст. Это используется для обучения и оценки.

Необходимые компоненты

Прежде чем добавлять метки к данным, необходимо выполнить следующие действия.

Дополнительные сведения см. в статье о жизненном цикле разработки проекта.

Рекомендации по маркировке данных

Когда вы закончите подготовку данных, разработку схемы и создание проекта, необходимо добавить метки к данным. Добавить метки к данным важно — так модель будет знать, какие слова будут связаны с типами сущностей, которые необходимо извлечь. При добавлении меток к данным в Language Studio (или при импорте данных с метками) эти метки будут храниться в JSON-документе в контейнере хранилища, подключенном к этому проекту.

При проставлении меток данных необходимо учитывать следующее.

  • Обычно, чем больше данных с метками, тем лучше результаты, если все эти метки присвоены правильно.

  • Точность, согласованность и полнота данных с метками являются ключевыми факторами для определения производительности модели.

    • Добавляйте метки точно. Обязательно добавляйте метки правильного типа к каждой сущности. Включайте только те данные, которые нужно извлечь. Не добавляйте в метки ненужные данные.
    • Добавляйте метки согласованно. У одной сущности должна быть одна и та же метка во всех документах.
    • Добавляйте метки ко всем данным. Добавляйте метки ко всем экземплярам сущности во всех документах. Вы можете использовать функцию автоматического маркировки, чтобы обеспечить полную маркировку.

    Примечание.

    Не существует фиксированного числа меток, способного гарантировать более эффективную работу модели. Производительность модели зависит от возможной неоднозначности в схеме и качества данных с метками. Тем не менее рекомендуется иметь около 50 экземпляров с метками для каждого типа сущности.

Добавление меток к данным

Чтобы добавить к данным метки, выполните следующие действия.

  1. Перейдите к странице проекта в Language Studio.

  2. В меню слева выберите Маркировка данных. Список всех документов представлен в контейнере хранилища.

    Совет

    Чтобы просмотреть документы без меток и приступить к маркировке, можно воспользоваться фильтрами в меню сверху. Кроме того, фильтры можно использовать для просмотра документов, помеченных определенным типом сущности.

  3. Перейдите в представление одного документа с помощью элементов в левой части верхнего меню или выберите конкретный документ, чтобы начать маркировку. Список всех документов .txt, доступных в проекте, представлен слева. Кнопки Назад и Далее в нижней части страницы можно использовать для навигации по документам.

    Примечание.

    Если вы включили в проект несколько языков, вы увидите в меню сверху раскрывающийся список Язык, позволяющий выбрать язык для каждого документа.

  4. На правой боковой панели добавьте тип сущности в проект, чтобы можно было приступить к добавлению меток к данным.

  5. Есть два варианта добавления меток в документ.

    Вариант Описание
    Добавление метки с помощью кисти Щелкните значок кисти рядом с типом сущности в области справа, а затем выделите в документе текст, к которому требуется добавить заметку с помощью этого типа сущности.
    Добавление метки с помощью меню Выделите слово, которое нужно пометить меткой как сущность, и появится меню. Выберите тип сущности, который нужно назначить для этой сущности.

    На приведенном ниже снимке экрана показано добавление меток с помощью кисти.

    Снимок экрана: параметры маркировки, предлагаемые в Custom NER.

  6. В боковой области справа под сводкой Метки представлены все типы сущностей в проекте и количество экземпляров с метками для каждого из них.

  7. В нижнем разделе области справа можно добавить текущий документ, который вы просматриваете, в обучающий или тестовый набор. По умолчанию все документы добавляются в обучающий набор. Узнайте больше о наборах для обучения и тестирования, а также о том, как они используются для обучения и оценки моделей.

    Совет

    Если планируется использовать автоматическое разделение данных, используйте параметр по умолчанию для назначения всех документов в набор для обучения.

  8. В сводке Распределение можно просмотреть распределение по наборам для обучения и тестирования. Доступны два варианта просмотра.

    • Общее количество экземпляров. Можно просмотреть количество всех экземпляров определенного типа сущности с метками.
    • Документы, у которых есть по крайней мере одна метка: учитывается каждый документ, содержащий по крайней мере один экземпляр этой сущности с метками.
  9. При добавлении меток изменения будут периодически синхронизироваться, а если они еще не сохранены, вы увидите предупреждение в верхней части страницы. Если вы хотите сохранить метки вручную, нажмите кнопку "Сохранить метки" в нижней части страницы .

Удаление меток

Чтобы удалить метку:

  1. выберите сущность, из которой нужно удалить метку;
  2. прокрутите появившееся меню и выберите пункт Удалить метку.

Удаление сущностей

Чтобы удалить сущность, щелкните значок удаления рядом с сущностью, которую требуется удалить. Удаление сущности приведет к удалению всех экземпляров с метками из набора данных.

Следующие шаги

После добавления меток к данным можно начать обучение модели на основе этих данных.