Delen via


Aangepaste NER-gegevensindelingen geaccepteerd

Als u uw gegevens probeert te importeren in aangepaste NER, moet deze een specifieke indeling volgen. Als u geen gegevens hebt om te importeren, kunt u uw project maken en Language Studio gebruiken om uw documenten te labelen.

Bestandsindeling van labels

Het labelbestand moet de json onderstaande indeling hebben om uw labels in een project te importeren .

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Sleutel Tijdelijke aanduiding Weergegeven als Opmerking
multilingual true Een Booleaanse waarde waarmee u documenten in meerdere talen in uw gegevensset kunt hebben en wanneer uw model wordt geïmplementeerd, kunt u een query uitvoeren op het model in elke ondersteunde taal (niet noodzakelijkerwijs opgenomen in uw trainingsdocumenten). Zie taalondersteuning voor meer informatie over meertalige ondersteuning. true
projectName {PROJECT-NAME} Projectnaam myproject
storageInputContainerName {CONTAINER-NAME} Containernaam mycontainer
entities Matrix met alle entiteitstypen die u in het project hebt. Dit zijn de entiteitstypen die uit uw documenten worden geëxtraheerd.
documents Matrix met alle documenten in uw project en een lijst met de entiteiten die in elk document zijn gelabeld. []
location {DOCUMENT-NAME} De locatie van de documenten in de opslagcontainer. Omdat alle documenten zich in de hoofdmap van de container bevinden, moet dit de naam van het document zijn. doc1.txt
dataset {DATASET} De testset waarnaar dit bestand gaat wanneer het wordt gesplitst vóór de training. Meer informatie over het splitsen van gegevens vindt u hier . Mogelijke waarden voor dit veld zijn Train en Test. Train
regionOffset De inclusieve tekenpositie van het begin van de tekst. 0
regionLength De lengte van het begrenzingsvak in termen van UTF16-tekens. Training houdt alleen rekening met de gegevens in deze regio. 500
category Het type entiteit dat is gekoppeld aan de opgegeven reeks tekst. Entity1
offset De beginpositie voor de entiteitstekst. 25
length De lengte van de entiteit in termen van UTF16-tekens. 20
language {LANGUAGE-CODE} Een tekenreeks die de taalcode opgeeft voor het document dat in uw project wordt gebruikt. Als uw project een meertalige project is, kiest u de taalcode van het merendeel van de documenten. Zie Taalondersteuning voor meer informatie over ondersteunde taalcodes. en-us

Volgende stappen

  • U kunt uw gelabelde gegevens rechtstreeks in uw project importeren. Meer informatie over het importeren van een project
  • Zie het artikel met instructies voor meer informatie over het labelen van uw gegevens. Wanneer u klaar bent met het labelen van uw gegevens, kunt u uw model trainen.