Märka dina data

Slutförd

Etikettering, eller taggning, dina data är korrekt en viktig del av processen för att skapa en anpassad entitetsextraheringsmodell. Etiketter identifierar exempel på specifika entiteter i text som används för att träna modellen. Tre saker att fokusera på är:

  • Konsekvens – Märka dina data på samma sätt i alla filer för träning. Konsekvens gör att din modell kan lära sig utan motstridiga indata.
  • Precision – Märka dina entiteter konsekvent, utan onödiga extra ord. Precision säkerställer att endast rätt data ingår i din extraherade entitet.
  • Fullständighet – Märk dina data helt och missa inte några entiteter. Fullständighet hjälper din modell att alltid identifiera de entiteter som finns.

Screenshot of labeling an entity in Language Studio.

Så här etiketterar du dina data

Language Studio är den mest raka metoden för att märka dina data. Med Language Studio kan du se filen, välja början och slutet av entiteten och ange vilken entitet den är.

Varje etikett som du identifierar sparas i en fil som finns i ditt lagringskonto med din datauppsättning i en automatiskt genererad JSON-fil. Den här filen används sedan av modellen för att lära dig hur du extraherar anpassade entiteter. Det går att ange den här filen när du skapar projektet (om du importerar samma etiketter från ett annat projekt, till exempel) men den måste vara i godkända anpassade NER-dataformat. Till exempel:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Fält beskrivning
documents Matris med etiketterade dokument
location Sökväg till fil i en container som är ansluten till projektet
language Filens språk
entities Matris med aktuella entiteter i det aktuella dokumentet
regionOffset Inkluderande teckenposition för textstart
regionLength Längd i tecken för de data som används i träning
category Namn på entitet som ska extraheras
labels Matris med etiketterade entiteter i filerna
offset Inkluderande teckenposition för början av entiteten
length Entitetens längd i tecken
dataset Vilken datauppsättning filen har tilldelats