共用方式為


接受的自訂 NER 資料格式

如果您嘗試將資料匯入自訂 NER 中,資料必須採用特定格式。 如果沒有資料可匯入,您可以建立專案,並使用 Language Studio 來標記您的文件

標籤檔案格式

標籤檔案應採用如下的 json 格式,才能用來將標籤匯入專案中。

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

機碼 預留位置 範例
multilingual true 布林值,可讓您在資料集中具有多種語言的文件,而且當部署模型時,您可以使用任何支援的語言 (不一定包含在定型文件中) 查詢模型。 若要深入了解多語系支援,請參閱語言支援 true
projectName {PROJECT-NAME} 專案名稱 myproject
storageInputContainerName {CONTAINER-NAME} 容器名稱 mycontainer
entities 陣列,其中包含您在專案中擁有的所有實體類型。 這些是從文件擷取到其中的實體類型。
documents 陣列,其中包含專案中的所有文件,以及每個文件內標記的實體清單。 },
location {DOCUMENT-NAME} 文件在儲存體容器中的位置。 因為所有文件都在容器的根目錄中,所以這應該是文件名稱。 doc1.txt
dataset {DATASET} 此檔案在定型前分割時將會移至的測試集。 在這裡深入了解資料分割。 此欄位的可能值為 TrainTest Train
regionOffset 文字開頭的內含字元位置。 0
regionLength 周框方塊的長度 (以 UTF16 字元為單位)。 訓練只會考慮此區域中的資料。 500
category 與指定的文字範圍相關聯的實體類型。 Entity1
offset 實體文字的開始位置。 25
length 實體的長度 (以 UTF16 字元為單位)。 20
language {LANGUAGE-CODE} 字串,指定專案中所用文件的語言代碼。 如果您的專案是多語系專案,請選擇大部分文件的語言代碼。 若要進一步了解支援的語言代碼,請參閱語言支援 en-us

下一步