데이터에 레이블 지정

4분

데이터에 올바르게 레이블을 지정하는 것은 사용자 지정 엔터티 추출 모델을 만드는 프로세스의 중요한 부분입니다. 레이블은 모델을 학습시키는 데 사용되는 텍스트의 특정 엔터티 예제를 식별합니다. 집중해야 할 세 가지 사항은 다음과 같습니다.

일관성 - 학습을 위해 모든 파일에서 동일한 방식으로 데이터에 레이블을 지정합니다. 일관성을 통해 충돌하는 입력 없이 모델을 학습할 수 있습니다.
정밀도 - 불필요한 추가 단어 없이 엔터티에 일관되게 레이블을 지정합니다. 정밀도를 통해 추출된 엔터티에 올바른 데이터만 포함할 수 있습니다.
완전성 - 데이터에 레이블을 완벽하게 지정하고 엔터티를 놓치지 않습니다. 완전성은 모델이 항상 존재하는 엔터티를 인식하는 데 도움이 됩니다.

데이터에 레이블을 지정하는 방법

Language Studio는 데이터에 레이블을 지정하는 가장 간단한 방법입니다. Language Studio를 사용하면 파일을 보고 엔터티의 시작과 끝을 선택하고 엔터티를 지정할 수 있습니다.

식별하는 각 레이블은 자동 생성된 JSON 파일에서 데이터 세트를 사용하여 스토리지 계정에 있는 파일에 저장됩니다. 그런 다음, 사용자 지정 엔터티를 추출하는 방법을 알아보기 위해 모델에서 이 파일을 사용합니다. 프로젝트를 만들 때(예를 들어 다른 프로젝트에서 동일한 레이블을 가져오는 경우) 이 파일을 제공할 수 있지만 수락된 사용자 지정 NER 데이터 형식이어야 합니다. 예시:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

필드	설명
`documents`	레이블이 지정된 문서 배열
`location`	프로젝트에 연결된 컨테이너 내의 파일 경로
`language`	파일의 언어
`entities`	현재 문서의 현재 엔터티 배열
`regionOffset`	텍스트 시작에 대한 포함 문자 위치
`regionLength`	학습에 사용되는 데이터의 문자 길이
`category`	추출할 엔터티의 이름
`labels`	레이블이 지정된 파일 내 엔터티 배열
`offset`	엔터티 시작에 대한 포함 문자 위치
`length`	엔터티의 문자 길이
`dataset`	파일이 할당되는 데이터 세트

데이터에 레이블 지정

데이터에 레이블을 지정하는 방법

피드백