Добавление меток к данным

Завершено

Правильное добавление тегов, или меток, к данным является важной частью процесса для создания пользовательской модели извлечения сущностей. Метки определяют примеры конкретных сущностей в тексте, используемом для обучения модели. Три вещи, на которые следует обратить внимание:

  • Согласованность — помечайте данные одинаково во всех файлах для обучения. Согласованность позволяет модели учиться без конфликтующих входных данных.
  • Точность — единообразно помечайте сущности без лишних слов. Точность гарантирует, что в извлеченную сущность включены только правильные данные.
  • Полнота — помечайте данные полностью и не пропускайте сущности. Полнота помогает модели всегда распознавать имеющиеся сущности.

Screenshot of labeling an entity in Language Studio.

Разделы справки по маркировке данных

Language Studio — это самый прямой способ добавления меток к данным. Language Studio позволяет просмотреть файл, выбрать начало и конец сущности и указать, какая это сущность.

Каждая метка, которую вы определяете, сохраняется в файле, который находится в вашей учетной записи хранения с набором данных, в автоматически созданном JSON-файле. Затем этот файл используется моделью, чтобы научить ее, как извлекать пользовательские сущности. Этот файл можно указать при создании проекта (если вы импортируете одни и те же метки из другого проекта, например), однако он должен находиться в пользовательских форматах данных NER. Например:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Поле Description
documents Массив помеченных документов
location Путь к файлу в контейнере, подключенном к проекту
language Язык файла
entities Массив существующих сущностей в текущем документе
regionOffset Инклюзивная позиция символа для начала текста
regionLength Длина в символах данных, используемых при обучении
category Имя сущности для извлечения
labels Массив сущностей с метками в файлах
offset Инклюзивная позиция символа для начала текста
length Длина блока в символах
dataset Какой набор данных назначается файлу