Поделиться через


Форматы данных, принимаемые пользовательским распознаванием именованных сущностей

Если вы пытаетесь импортировать данные в пользовательское распознавание именованных сущностей, они должны иметь определенный формат. Если у вас нет данных для импорта, можно создать проект и использовать Language Studio, чтобы добавить метки к документам.

Формат файла с метками

Файл с метками должен быть в формате json, описанном ниже, который будет использоваться при импорте меток в проект.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Ключ Заполнитель Значение Пример
multilingual true Логическое значение, которое позволяет иметь документы на нескольких языках в наборе данных. После развертывания модели вы можете отправить к ней запрос на любом поддерживаемом языке (не обязательно включенном в обучающие документы). См. дополнительные сведения о поддержке нескольких языков. true
projectName {PROJECT-NAME} Имя проекта myproject
storageInputContainerName {CONTAINER-NAME} Имя контейнера mycontainer
entities Массив, содержащий все типы сущностей в проекте. Это типы сущностей, которые будут извлекаться из документов.
documents Массив, содержащий все документы в проекте и список сущностей, помеченных в каждом документе. []
location {DOCUMENT-NAME} Расположение документов в контейнере хранилища. Так как все документы находятся в корне контейнера, это должно быть имя документа. doc1.txt
dataset {DATASET} Тестовый набор, в который будет перемещен этот файл при разделении перед обучением. См. дополнительные сведения о разделении данных. Возможные значения для этого поля: Train и Test. Train
regionOffset Позиция символа начала текста (включая сам символ). 0
regionLength Длина ограничивающего прямоугольника в символах UTF16. При обучении учитываются данные только в этом регионе. 500
category Тип сущности, связанной с заданным фрагментом текста. Entity1
offset Начальная позиция текста сущности. 25
length Длина сущности в символах UTF16. 20
language {LANGUAGE-CODE} Строка, указывающая код языка для документа, используемого в проекте. Если проект является многоязычным, выберите код языка большинства документов. Дополнительные сведения о поддерживаемых кодах языков см. в разделе Поддержка языков. en-us

Следующие шаги

  • Вы можете импортировать данные с метками непосредственно в свой проект. Узнайте, как импортировать проект
  • Дополнительные сведения о добавлении меток к данным приведены в этой статье. Завершив добавление меток к данным, можно приступить к обучению модели.