허용되는 사용자 지정 NER 데이터 형식
사용자 지정 NER로 데이터를 가져오려는 경우 특정 형식을 따라야 합니다. 가져올 데이터가 없는 경우 프로젝트를 만들고 Language Studio를 사용하여 문서에 레이블을 지정할 수 있습니다.
레이블 파일 형식
레이블을 프로젝트로 가져오는 데 사용할 레이블 파일은 아래 json
형식이어야 합니다.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
키 | 자리 표시자 | 값 | 예제 |
---|---|---|---|
multilingual |
true |
데이터 세트에 여러 언어로 된 문서를 포함할 수 있고 모델을 배포할 때 지원되는 모든 언어로 모델을 쿼리할 수 있는 부울 값입니다(반드시 학습 문서에 포함되지는 않음). 다국어 지원에 대한 자세한 내용은 언어 지원을 참조하세요. | true |
projectName |
{PROJECT-NAME} |
프로젝트 이름 | myproject |
storageInputContainerName | {CONTAINER-NAME} |
컨테이너 이름 | mycontainer |
entities |
프로젝트에 있는 모든 엔터티 형식을 포함하는 배열입니다. 이러한 엔터티 형식은 문서에서 추출할 엔터티 형식입니다. | ||
documents |
프로젝트의 모든 문서 및 각 문서 내에서 레이블이 지정된 엔터티 목록을 포함하는 배열입니다. | [] | |
location |
{DOCUMENT-NAME} |
스토리지 컨테이너에 있는 문서의 위치입니다. 모든 문서가 컨테이너의 루트에 있으므로 문서 이름이어야 합니다. | doc1.txt |
dataset |
{DATASET} |
학습 전 분할 시 이 파일이 이동할 테스트 집합입니다. 여기에서 데이터 분할에 대해 자세히 알아보세요. 이 필드에 사용할 수 있는 값은 Train 및 Test 입니다. |
Train |
regionOffset |
텍스트 시작의 포함 문자 위치입니다. | 0 |
|
regionLength |
UTF16 문자로 나타낸 경계 상자의 길이입니다. 학습은 이 지역의 데이터만 고려합니다. | 500 |
|
category |
지정된 텍스트 범위와 연결된 엔터티 형식입니다. | Entity1 |
|
offset |
엔터티 텍스트의 시작 위치입니다. | 25 |
|
length |
UTF16 문자로 나타낸 엔터티의 길이입니다. | 20 |
|
language |
{LANGUAGE-CODE} |
프로젝트에 사용되는 문서의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 문서에 대한 언어 코드를 선택합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. | en-us |
다음 단계
- 레이블이 지정된 데이터를 프로젝트로 직접 가져올 수 있습니다. 프로젝트를 가져오는 방법을 알아봅니다.
- 데이터 레이블 지정에 관한 자세한 내용은 방법 문서를 참조하세요. 데이터 레이블 지정을 완료하면 모델을 학습시킬 수 있습니다.