接受的自訂 NER 資料格式

發行項
11/21/2024

如果您嘗試將資料匯入自訂 NER 中，資料必須採用特定格式。如果沒有資料可匯入，您可以建立專案，並使用 Language Studio 來標記您的文件。

標籤檔案格式

標籤檔案應採用如下的 json 格式，才能用來將標籤匯入專案中。

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

機碼	預留位置	值	範例
`multilingual`	`true`	布林值，可讓您在資料集中具有多種語言的文件，而且當部署模型時，您可以使用任何支援的語言 (不一定包含在定型文件中) 查詢模型。若要深入了解多語系支援，請參閱語言支援。	`true`
`projectName`	`{PROJECT-NAME}`	專案名稱	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	容器名稱	`mycontainer`
`entities`		陣列，其中包含您在專案中擁有的所有實體類型。這些是從文件擷取到其中的實體類型。
`documents`		陣列，其中包含專案中的所有文件，以及每個文件內標記的實體清單。	},
`location`	`{DOCUMENT-NAME}`	文件在儲存體容器中的位置。因為所有文件都在容器的根目錄中，所以這應該是文件名稱。	`doc1.txt`
`dataset`	`{DATASET}`	此檔案在定型前分割時將會移至的測試集。在這裡深入了解資料分割。此欄位的可能值為 `Train` 和 `Test`。	`Train`
`regionOffset`		文字開頭的內含字元位置。	`0`
`regionLength`		周框方塊的長度 (以 UTF16 字元為單位)。訓練只會考慮此區域中的資料。	`500`
`category`		與指定的文字範圍相關聯的實體類型。	`Entity1`
`offset`		實體文字的開始位置。	`25`
`length`		實體的長度 (以 UTF16 字元為單位)。	`20`
`language`	`{LANGUAGE-CODE}`	字串，指定專案中所用文件的語言代碼。如果您的專案是多語系專案，請選擇大部分文件的語言代碼。若要進一步了解支援的語言代碼，請參閱語言支援。	`en-us`

下一步

您可以將標記的資料直接匯入專案中。了解如何匯入專案
請參閱操作說明文章，以取得有關標記資料的詳細資訊。標記資料完成後，即可開始定型您的模型。

共用方式為

接受的自訂 NER 資料格式

標籤檔案格式

下一步

意見反應

其他資源