Přijaté vlastní formáty dat NER

Článek
11/21/2024

Pokud se pokoušíte importovat data do vlastního NER, musí dodržovat konkrétní formát. Pokud nemáte data k importu, můžete vytvořit projekt a použít Language Studio k označení dokumentů.

Formát souboru popisků

Soubor Popisky by měl být ve json formátu níže, který se má použít při importu štítků do projektu.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Klíč	Zástupný symbol	Hodnota	Příklad
`multilingual`	`true`	Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků.	`true`
`projectName`	`{PROJECT-NAME}`	Název projektu	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	Název kontejneru	`mycontainer`
`entities`		Pole obsahující všechny typy entit, které máte v projektu. Jedná se o typy entit, které se z dokumentů extrahují.
`documents`		Pole obsahující všechny dokumenty v projektu a seznam entit označených v rámci každého dokumentu	[]
`location`	`{DOCUMENT-NAME}`	Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měl by to být název dokumentu.	`doc1.txt`
`dataset`	`{DATASET}`	Testovací sada, na kterou tento soubor přejde při rozdělení před trénováním. Další informace o rozdělení dat najdete tady . Možné hodnoty pro toto pole jsou `Train` a `Test`.	`Train`
`regionOffset`		Inkluzivní pozice znaku začátku textu.	`0`
`regionLength`		Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti.	`500`
`category`		Typ entity přidružené k rozsahu zadaného textu.	`Entity1`
`offset`		Počáteční pozice textu entity.	`25`
`length`		Délka entity z hlediska znaků UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Řetězec určující kód jazyka pro dokument použitý v projektu. Pokud je projekt vícejazyčný, zvolte kód jazyka většiny dokumentů. Další informace o podporovaných kódech jazyka najdete v části Podpora jazyků.	`en-us`

Další kroky

Data s popisky můžete do projektu importovat přímo. Naučte se importovat projekt.
Další informace o označování dat najdete v článku s postupy. Až budete mít popisky dat, můžete model vytrénovat.

Sdílet prostřednictvím

Přijaté vlastní formáty dat NER

Formát souboru popisků

Další kroky

Váš názor

Další materiály