Поделиться через


Метка данных с помощью Language Studio

Маркировка данных — важный шаг в жизненном цикле разработки. На этом шаге вы помечаете документы новыми сущностями, определенными в схеме, чтобы заполнить их обучаемые компоненты. Эти данные будут использоваться на следующем шаге при обучении модели, чтобы модель училась из помеченных данных, чтобы узнать, какие сущности необходимо извлечь. Если у вас уже есть помеченные данные, его можно импортировать непосредственно в проект, но необходимо убедиться, что данные соответствуют принятому формату данных. Дополнительные сведения об импорте данных с метками в проект см. в статье о создании проекта. Если данные не имеют меток, их можно снабдить метками в Language Studio.

Необходимые компоненты

Прежде чем добавлять метки к данным, необходимо выполнить следующие действия.

Дополнительные сведения см. в статье о жизненном цикле разработки проекта.

Рекомендации по маркировке данных

Когда вы закончите подготовку данных, разработку схемы и создание проекта, необходимо добавить метки к данным. Добавить метки к данным важно — так модель будет знать, какие слова будут связаны с типами сущностей, которые необходимо извлечь. При метке данных в Language Studio (или импорте помеченных данных) эти метки хранятся в документе JSON в контейнере хранилища, подключенном к этому проекту.

При проставлении меток данных необходимо учитывать следующее.

  • Нельзя добавлять метки для Анализ текста для сущностей работоспособности, так как они предварительно обучены предварительно созданные сущности. Вы можете добавлять метки только в новые категории сущностей, определенные во время определения схемы.

Если вы хотите улучшить отзыв для предварительно созданной сущности, ее можно расширить, добавив компонент списка при определении схемы.

  • Обычно, чем больше данных с метками, тем лучше результаты, если все эти метки присвоены правильно.

  • Точность, согласованность и полнота данных с метками являются ключевыми факторами для определения производительности модели.

    • Добавляйте метки точно. Обязательно добавляйте метки правильного типа к каждой сущности. Включайте только те данные, которые нужно извлечь. Не добавляйте в метки ненужные данные.
    • Добавляйте метки согласованно. У одной сущности должна быть одна и та же метка во всех документах.
    • Добавляйте метки ко всем данным. Добавляйте метки ко всем экземплярам сущности во всех документах.

    Примечание.

    Не существует фиксированного числа меток, способного гарантировать более эффективную работу модели. Производительность модели зависит от возможной неоднозначности в схеме и качества данных с метками. Тем не менее рекомендуется иметь около 50 экземпляров с метками для каждого типа сущности.

Добавление меток к данным

Чтобы добавить к данным метки, выполните следующие действия.

  1. Перейдите к странице проекта в Language Studio.

  2. В меню слева выберите Маркировка данных. Список всех документов представлен в контейнере хранилища.

    Совет

    Чтобы просмотреть документы без меток и приступить к маркировке, можно воспользоваться фильтрами в меню сверху. Кроме того, фильтры можно использовать для просмотра документов, помеченных определенным типом сущности.

  3. Перейдите в представление одного документа с помощью элементов в левой части верхнего меню или выберите конкретный документ, чтобы начать маркировку. Список всех документов .txt, доступных в проекте, представлен слева. Кнопки Назад и Далее в нижней части страницы можно использовать для навигации по документам.

    Примечание.

    Если вы включили в проект несколько языков, вы увидите в меню сверху раскрывающийся список Язык, позволяющий выбрать язык для каждого документа. Иврит не поддерживается с многоязычными проектами.

  4. В правой боковой области можно использовать кнопку "Добавить тип сущности" для добавления дополнительных сущностей в проект, пропущенный во время определения схемы.

  5. Есть два варианта добавления меток в документ.

    Вариант Описание
    Добавление метки с помощью кисти Щелкните значок кисти рядом с типом сущности в области справа, а затем выделите в документе текст, к которому требуется добавить заметку с помощью этого типа сущности.
    Добавление метки с помощью меню Выделите слово, которое нужно пометить меткой как сущность, и появится меню. Выберите тип сущности, который нужно назначить для этой сущности.

    На приведенном ниже снимке экрана показано добавление меток с помощью кисти.

    Снимок экрана: параметры маркировки, предлагаемые в Custom NER.

  6. В боковой области справа под сводкой Метки представлены все типы сущностей в проекте и количество экземпляров с метками для каждого из них. Предварительно созданные сущности будут отображаться для справки, но вы не сможете пометить эти предварительно созданные сущности, так как они предварительно обучены.

  7. В нижнем разделе области справа можно добавить текущий документ, который вы просматриваете, в обучающий или тестовый набор. По умолчанию все документы добавляются в обучающий набор. Сведения о том, как они используются для обучения и оценки моделей, см . в наборах для обучения и тестирования.

    Совет

    Если планируется использовать автоматическое разделение данных, используйте параметр по умолчанию для назначения всех документов в набор для обучения.

  8. В сводке Распределение можно просмотреть распределение по наборам для обучения и тестирования. Доступны два варианта просмотра.

    • Общее количество экземпляров. Можно просмотреть количество всех экземпляров определенного типа сущности с метками.
    • Документы с по крайней мере одной меткой , в которой учитывается каждый документ, если он содержит по крайней мере один помеченный экземпляр этой сущности.
  9. При маркировке изменения синхронизируются периодически, если они еще не сохранены, в верхней части страницы появится предупреждение. Если вы хотите сохранить метки вручную, нажмите кнопку "Сохранить метки" в нижней части страницы .

Удаление меток

Чтобы удалить метку:

  1. выберите сущность, из которой нужно удалить метку;
  2. прокрутите появившееся меню и выберите пункт Удалить метку.

Удаление сущностей

Невозможно удалить любой из Анализ текста для предварительно обученных сущностей работоспособности, так как у них есть предварительно созданный компонент. Вы можете удалить только новые категории сущностей. Чтобы удалить сущность, щелкните значок удаления рядом с сущностью, которую требуется удалить. При удалении сущности удаляются все помеченные экземпляры из набора данных.

Следующие шаги

После добавления меток к данным можно начать обучение модели на основе этих данных.