Märka dina data
Etikettering, eller taggning, dina data är korrekt en viktig del av processen för att skapa en anpassad entitetsextraheringsmodell. Etiketter identifierar exempel på specifika entiteter i text som används för att träna modellen. Tre saker att fokusera på är:
- Konsekvens – Märka dina data på samma sätt i alla filer för träning. Konsekvens gör att din modell kan lära sig utan motstridiga indata.
- Precision – Märka dina entiteter konsekvent, utan onödiga extra ord. Precision säkerställer att endast rätt data ingår i din extraherade entitet.
- Fullständighet – Märk dina data helt och missa inte några entiteter. Fullständighet hjälper din modell att alltid identifiera de entiteter som finns.
Så här etiketterar du dina data
Language Studio är den mest raka metoden för att märka dina data. Med Language Studio kan du se filen, välja början och slutet av entiteten och ange vilken entitet den är.
Varje etikett som du identifierar sparas i en fil som finns i ditt lagringskonto med din datauppsättning i en automatiskt genererad JSON-fil. Den här filen används sedan av modellen för att lära dig hur du extraherar anpassade entiteter. Det går att ange den här filen när du skapar projektet (om du importerar samma etiketter från ett annat projekt, till exempel) men den måste vara i godkända anpassade NER-dataformat. Till exempel:
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Fält | beskrivning |
---|---|
documents |
Matris med etiketterade dokument |
location |
Sökväg till fil i en container som är ansluten till projektet |
language |
Filens språk |
entities |
Matris med aktuella entiteter i det aktuella dokumentet |
regionOffset |
Inkluderande teckenposition för textstart |
regionLength |
Längd i tecken för de data som används i träning |
category |
Namn på entitet som ska extraheras |
labels |
Matris med etiketterade entiteter i filerna |
offset |
Inkluderande teckenposition för början av entiteten |
length |
Entitetens längd i tecken |
dataset |
Vilken datauppsättning filen har tilldelats |