Добавление меток к данным

4 мин

Правильное добавление тегов, или меток, к данным является важной частью процесса для создания пользовательской модели извлечения сущностей. Метки определяют примеры конкретных сущностей в тексте, используемом для обучения модели. Три вещи, на которые следует обратить внимание:

Согласованность — помечайте данные одинаково во всех файлах для обучения. Согласованность позволяет модели учиться без конфликтующих входных данных.
Точность — единообразно помечайте сущности без лишних слов. Точность гарантирует, что в извлеченную сущность включены только правильные данные.
Полнота — помечайте данные полностью и не пропускайте сущности. Полнота помогает модели всегда распознавать имеющиеся сущности.

Разделы справки по маркировке данных

Language Studio — это самый прямой способ добавления меток к данным. Language Studio позволяет просмотреть файл, выбрать начало и конец сущности и указать, какая это сущность.

Каждая метка, которую вы определяете, сохраняется в файле, который находится в вашей учетной записи хранения с набором данных, в автоматически созданном JSON-файле. Затем этот файл используется моделью, чтобы научить ее, как извлекать пользовательские сущности. Этот файл можно указать при создании проекта (если вы импортируете одни и те же метки из другого проекта, например), однако он должен находиться в пользовательских форматах данных NER. Например:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Поле	Description
`documents`	Массив помеченных документов
`location`	Путь к файлу в контейнере, подключенном к проекту
`language`	Язык файла
`entities`	Массив существующих сущностей в текущем документе
`regionOffset`	Инклюзивная позиция символа для начала текста
`regionLength`	Длина в символах данных, используемых при обучении
`category`	Имя сущности для извлечения
`labels`	Массив сущностей с метками в файлах
`offset`	Инклюзивная позиция символа для начала текста
`length`	Длина блока в символах
`dataset`	Какой набор данных назначается файлу

Добавление меток к данным

Разделы справки по маркировке данных

Обратная связь