데이터에 레이블 지정

완료됨

데이터에 올바르게 레이블을 지정하는 것은 사용자 지정 엔터티 추출 모델을 만드는 프로세스의 중요한 부분입니다. 레이블은 모델을 학습시키는 데 사용되는 텍스트의 특정 엔터티 예제를 식별합니다. 집중해야 할 세 가지 사항은 다음과 같습니다.

  • 일관성 - 학습을 위해 모든 파일에서 동일한 방식으로 데이터에 레이블을 지정합니다. 일관성을 통해 충돌하는 입력 없이 모델을 학습할 수 있습니다.
  • 정밀도 - 불필요한 추가 단어 없이 엔터티에 일관되게 레이블을 지정합니다. 정밀도를 통해 추출된 엔터티에 올바른 데이터만 포함할 수 있습니다.
  • 완전성 - 데이터에 레이블을 완벽하게 지정하고 엔터티를 놓치지 않습니다. 완전성은 모델이 항상 존재하는 엔터티를 인식하는 데 도움이 됩니다.

Screenshot of labeling an entity in Language Studio.

데이터에 레이블을 지정하는 방법

Language Studio는 데이터에 레이블을 지정하는 가장 간단한 방법입니다. Language Studio를 사용하면 파일을 보고 엔터티의 시작과 끝을 선택하고 엔터티를 지정할 수 있습니다.

식별하는 각 레이블은 자동 생성된 JSON 파일에서 데이터 세트를 사용하여 스토리지 계정에 있는 파일에 저장됩니다. 그런 다음, 사용자 지정 엔터티를 추출하는 방법을 알아보기 위해 모델에서 이 파일을 사용합니다. 프로젝트를 만들 때(예를 들어 다른 프로젝트에서 동일한 레이블을 가져오는 경우) 이 파일을 제공할 수 있지만 수락된 사용자 지정 NER 데이터 형식이어야 합니다. 예시:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

필드 설명
documents 레이블이 지정된 문서 배열
location 프로젝트에 연결된 컨테이너 내의 파일 경로
language 파일의 언어
entities 현재 문서의 현재 엔터티 배열
regionOffset 텍스트 시작에 대한 포함 문자 위치
regionLength 학습에 사용되는 데이터의 문자 길이
category 추출할 엔터티의 이름
labels 레이블이 지정된 파일 내 엔터티 배열
offset 엔터티 시작에 대한 포함 문자 위치
length 엔터티의 문자 길이
dataset 파일이 할당되는 데이터 세트