Sdílet prostřednictvím


Přijaté vlastní formáty dat NER

Pokud se pokoušíte importovat data do vlastního NER, musí dodržovat konkrétní formát. Pokud nemáte data k importu, můžete vytvořit projekt a použít Language Studio k označení dokumentů.

Formát souboru popisků

Soubor Popisky by měl být ve json formátu níže, který se má použít při importu štítků do projektu.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Klíč Zástupný symbol Hodnota Příklad
multilingual true Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků. true
projectName {PROJECT-NAME} Název projektu myproject
storageInputContainerName {CONTAINER-NAME} Název kontejneru mycontainer
entities Pole obsahující všechny typy entit, které máte v projektu. Jedná se o typy entit, které se z dokumentů extrahují.
documents Pole obsahující všechny dokumenty v projektu a seznam entit označených v rámci každého dokumentu []
location {DOCUMENT-NAME} Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měl by to být název dokumentu. doc1.txt
dataset {DATASET} Testovací sada, na kterou tento soubor přejde při rozdělení před trénováním. Další informace o rozdělení dat najdete tady . Možné hodnoty pro toto pole jsou Train a Test. Train
regionOffset Inkluzivní pozice znaku začátku textu. 0
regionLength Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti. 500
category Typ entity přidružené k rozsahu zadaného textu. Entity1
offset Počáteční pozice textu entity. 25
length Délka entity z hlediska znaků UTF16. 20
language {LANGUAGE-CODE} Řetězec určující kód jazyka pro dokument použitý v projektu. Pokud je projekt vícejazyčný, zvolte kód jazyka většiny dokumentů. Další informace o podporovaných kódech jazyka najdete v části Podpora jazyků. en-us

Další kroky

  • Data s popisky můžete do projektu importovat přímo. Naučte se importovat projekt.
  • Další informace o označování dat najdete v článku s postupy. Až budete mít popisky dat, můžete model vytrénovat.