허용되는 사용자 지정 감정 분석 데이터 서식
사용자 지정 감정 분석으로 데이터를 가져오려면 특정 형식을 따라야 합니다. 가져올 데이터가 없는 경우 프로젝트를 만들고 Language Studio를 사용하여 문서에 레이블을 지정할 수 있습니다.
레이블 파일 형식
레이블을 프로젝트로 가져오는 데 사용할 레이블 파일은 아래 json
형식이어야 합니다.
{
"projectFileVersion": "2023-04-15-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomTextSentiment",
"storageInputContainerName": "custom-sentiment-2",
"projectName": "sa-test",
"multilingual": false,
"description": "",
"language": "en-us"
},
"assets": {
"projectKind": "CustomTextSentiment",
"documents": [
{
"location": "document_1.txt",
"language": "en-us",
"sentimentSpans": [
{
"category": "positive",
"offset": 0,
"length": 60
},
{
"category": "neutral",
"offset": 61,
"length": 31
}
],
"dataset": "Train"
},
{
"location": "document_2.txt",
"language": "en-us",
"sentimentSpans": [
{
"category": "positive",
"offset": 0,
"length": 50
},
{
"category": "positive",
"offset": 51,
"length": 49
},
{
"category": "positive",
"offset": 101,
"length": 26
}
],
"dataset": "Train"
}
]
}
}
키 | 자리 표시자 | 값 | 예제 |
---|---|---|---|
multilingual |
true |
데이터 세트에 여러 언어로 된 문서를 포함할 수 있고 모델을 배포할 때 지원되는 모든 언어로 모델을 쿼리할 수 있는 부울 값입니다(반드시 학습 문서에 포함되지는 않음). 다국어 지원에 대한 자세한 내용은 언어 지원을 참조하세요. | true |
projectName |
{PROJECT-NAME} |
프로젝트 이름 | myproject |
storageInputContainerName | {CONTAINER-NAME} |
컨테이너 이름 | mycontainer |
sentimentSpans |
문서의 모든 감정과 해당 위치를 포함하는 배열입니다. | ||
documents |
프로젝트의 모든 문서 및 각 문서 내에서 레이블이 지정된 엔터티 목록을 포함하는 배열입니다. | [] | |
location |
{DOCUMENT-NAME} |
스토리지 컨테이너에 있는 문서의 위치입니다. 모든 문서가 컨테이너의 루트에 있으므로 문서 이름이어야 합니다. | doc1.txt |
dataset |
{DATASET} |
학습 전 분할 시 이 파일이 이동할 테스트 집합입니다. 여기에서 데이터 분할에 대해 자세히 알아보세요. 이 필드에 사용할 수 있는 값은 Train 및 Test 입니다. |
Train |
offset |
텍스트에서 감정이 시작되는 포괄적인 문자 위치입니다. | 0 |
|
length |
UTF16 문자로 나타낸 경계 상자의 길이입니다. 학습은 이 지역의 데이터만 고려합니다. | 500 |
|
category |
지정된 텍스트 범위와 관련된 감정입니다. | positive |
|
offset |
엔터티 텍스트의 시작 위치입니다. | 25 |
|
length |
UTF16 문자로 나타낸 엔터티의 길이입니다. | 20 |
|
language |
{LANGUAGE-CODE} |
프로젝트에 사용되는 문서의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 문서에 대한 언어 코드를 선택합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. | en-us |
다음 단계
- 레이블이 지정된 데이터를 프로젝트로 직접 가져올 수 있습니다. 프로젝트를 가져오는 방법을 알아봅니다.
- 데이터 레이블 지정에 관한 자세한 내용은 방법 문서를 참조하세요. 데이터 레이블 지정을 완료하면 모델을 학습시킬 수 있습니다.