Добавление меток к данным
Правильное добавление тегов, или меток, к данным является важной частью процесса для создания пользовательской модели извлечения сущностей. Метки определяют примеры конкретных сущностей в тексте, используемом для обучения модели. Три вещи, на которые следует обратить внимание:
- Согласованность — помечайте данные одинаково во всех файлах для обучения. Согласованность позволяет модели учиться без конфликтующих входных данных.
- Точность — единообразно помечайте сущности без лишних слов. Точность гарантирует, что в извлеченную сущность включены только правильные данные.
- Полнота — помечайте данные полностью и не пропускайте сущности. Полнота помогает модели всегда распознавать имеющиеся сущности.
Разделы справки по маркировке данных
Language Studio — это самый прямой способ добавления меток к данным. Language Studio позволяет просмотреть файл, выбрать начало и конец сущности и указать, какая это сущность.
Каждая метка, которую вы определяете, сохраняется в файле, который находится в вашей учетной записи хранения с набором данных, в автоматически созданном JSON-файле. Затем этот файл используется моделью, чтобы научить ее, как извлекать пользовательские сущности. Этот файл можно указать при создании проекта (если вы импортируете одни и те же метки из другого проекта, например), однако он должен находиться в пользовательских форматах данных NER. Например:
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Поле | Description |
---|---|
documents |
Массив помеченных документов |
location |
Путь к файлу в контейнере, подключенном к проекту |
language |
Язык файла |
entities |
Массив существующих сущностей в текущем документе |
regionOffset |
Инклюзивная позиция символа для начала текста |
regionLength |
Длина в символах данных, используемых при обучении |
category |
Имя сущности для извлечения |
labels |
Массив сущностей с метками в файлах |
offset |
Инклюзивная позиция символа для начала текста |
length |
Длина блока в символах |
dataset |
Какой набор данных назначается файлу |