Aangepaste NER-gegevensindelingen geaccepteerd
Als u uw gegevens probeert te importeren in aangepaste NER, moet deze een specifieke indeling volgen. Als u geen gegevens hebt om te importeren, kunt u uw project maken en Language Studio gebruiken om uw documenten te labelen.
Bestandsindeling van labels
Het labelbestand moet de json
onderstaande indeling hebben om uw labels in een project te importeren .
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Sleutel | Tijdelijke aanduiding | Weergegeven als | Opmerking |
---|---|---|---|
multilingual |
true |
Een Booleaanse waarde waarmee u documenten in meerdere talen in uw gegevensset kunt hebben en wanneer uw model wordt geïmplementeerd, kunt u een query uitvoeren op het model in elke ondersteunde taal (niet noodzakelijkerwijs opgenomen in uw trainingsdocumenten). Zie taalondersteuning voor meer informatie over meertalige ondersteuning. | true |
projectName |
{PROJECT-NAME} |
Projectnaam | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Containernaam | mycontainer |
entities |
Matrix met alle entiteitstypen die u in het project hebt. Dit zijn de entiteitstypen die uit uw documenten worden geëxtraheerd. | ||
documents |
Matrix met alle documenten in uw project en een lijst met de entiteiten die in elk document zijn gelabeld. | [] | |
location |
{DOCUMENT-NAME} |
De locatie van de documenten in de opslagcontainer. Omdat alle documenten zich in de hoofdmap van de container bevinden, moet dit de naam van het document zijn. | doc1.txt |
dataset |
{DATASET} |
De testset waarnaar dit bestand gaat wanneer het wordt gesplitst vóór de training. Meer informatie over het splitsen van gegevens vindt u hier . Mogelijke waarden voor dit veld zijn Train en Test . |
Train |
regionOffset |
De inclusieve tekenpositie van het begin van de tekst. | 0 |
|
regionLength |
De lengte van het begrenzingsvak in termen van UTF16-tekens. Training houdt alleen rekening met de gegevens in deze regio. | 500 |
|
category |
Het type entiteit dat is gekoppeld aan de opgegeven reeks tekst. | Entity1 |
|
offset |
De beginpositie voor de entiteitstekst. | 25 |
|
length |
De lengte van de entiteit in termen van UTF16-tekens. | 20 |
|
language |
{LANGUAGE-CODE} |
Een tekenreeks die de taalcode opgeeft voor het document dat in uw project wordt gebruikt. Als uw project een meertalige project is, kiest u de taalcode van het merendeel van de documenten. Zie Taalondersteuning voor meer informatie over ondersteunde taalcodes. | en-us |
Volgende stappen
- U kunt uw gelabelde gegevens rechtstreeks in uw project importeren. Meer informatie over het importeren van een project
- Zie het artikel met instructies voor meer informatie over het labelen van uw gegevens. Wanneer u klaar bent met het labelen van uw gegevens, kunt u uw model trainen.