데이터에 레이블 지정
데이터에 올바르게 레이블을 지정하는 것은 사용자 지정 엔터티 추출 모델을 만드는 프로세스의 중요한 부분입니다. 레이블은 모델을 학습시키는 데 사용되는 텍스트의 특정 엔터티 예제를 식별합니다. 집중해야 할 세 가지 사항은 다음과 같습니다.
- 일관성 - 학습을 위해 모든 파일에서 동일한 방식으로 데이터에 레이블을 지정합니다. 일관성을 통해 충돌하는 입력 없이 모델을 학습할 수 있습니다.
- 정밀도 - 불필요한 추가 단어 없이 엔터티에 일관되게 레이블을 지정합니다. 정밀도를 통해 추출된 엔터티에 올바른 데이터만 포함할 수 있습니다.
- 완전성 - 데이터에 레이블을 완벽하게 지정하고 엔터티를 놓치지 않습니다. 완전성은 모델이 항상 존재하는 엔터티를 인식하는 데 도움이 됩니다.
데이터에 레이블을 지정하는 방법
Language Studio는 데이터에 레이블을 지정하는 가장 간단한 방법입니다. Language Studio를 사용하면 파일을 보고 엔터티의 시작과 끝을 선택하고 엔터티를 지정할 수 있습니다.
식별하는 각 레이블은 자동 생성된 JSON 파일에서 데이터 세트를 사용하여 스토리지 계정에 있는 파일에 저장됩니다. 그런 다음, 사용자 지정 엔터티를 추출하는 방법을 알아보기 위해 모델에서 이 파일을 사용합니다. 프로젝트를 만들 때(예를 들어 다른 프로젝트에서 동일한 레이블을 가져오는 경우) 이 파일을 제공할 수 있지만 수락된 사용자 지정 NER 데이터 형식이어야 합니다. 예시:
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
필드 | 설명 |
---|---|
documents |
레이블이 지정된 문서 배열 |
location |
프로젝트에 연결된 컨테이너 내의 파일 경로 |
language |
파일의 언어 |
entities |
현재 문서의 현재 엔터티 배열 |
regionOffset |
텍스트 시작에 대한 포함 문자 위치 |
regionLength |
학습에 사용되는 데이터의 문자 길이 |
category |
추출할 엔터티의 이름 |
labels |
레이블이 지정된 파일 내 엔터티 배열 |
offset |
엔터티 시작에 대한 포함 문자 위치 |
length |
엔터티의 문자 길이 |
dataset |
파일이 할당되는 데이터 세트 |