Geaccepteerde gegevensindelingen
Als u uw gegevens probeert te importeren in aangepaste tekstclassificatie, moet deze een specifieke indeling volgen. Als u geen gegevens hebt om te importeren, kunt u uw project maken en Language Studio gebruiken om uw documenten te labelen.
Bestandsindeling van labels
Het labelbestand moet de json
onderstaande indeling hebben. Hiermee kunt u uw labels importeren in een project.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
Sleutel | Tijdelijke aanduiding | Weergegeven als | Opmerking |
---|---|---|---|
meertalig | true |
Een Booleaanse waarde waarmee u documenten in meerdere talen in uw gegevensset kunt hebben en wanneer uw model wordt geïmplementeerd, kunt u een query uitvoeren op het model in elke ondersteunde taal (niet noodzakelijkerwijs opgenomen in uw trainingsdocumenten). Zie taalondersteuning voor meer informatie over meertalige ondersteuning. | true |
projectNaam | {PROJECT-NAME} |
Projectnaam | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Containernaam | mycontainer |
klassen | [] | Matrix met alle klassen die u in het project hebt. Dit zijn de klassen waarnaar u uw documenten wilt classificeren. | [] |
documents | [] | Matrix met alle documenten in uw project en de klassen die voor dit document zijn gelabeld. | [] |
locatie | {DOCUMENT-NAME} |
De locatie van de documenten in de opslagcontainer. Omdat alle documenten zich in de hoofdmap van de container bevinden, moet deze waarde de documentnaam zijn. | doc1.txt |
gegevensset | {DATASET} |
De testset waarnaar dit bestand gaat wanneer het wordt gesplitst vóór de training. Zie Hoe u een model traint voor meer informatie. Mogelijke waarden voor dit veld zijn Train en Test . |
Train |
Volgende stappen
- U kunt uw gelabelde gegevens rechtstreeks in uw project importeren. Zie Hoe u een project maakt voor meer informatie over het importeren van projecten.
- Zie het artikel met instructies voor meer informatie over het labelen van uw gegevens. Wanneer u klaar bent met het labelen van uw gegevens, kunt u uw model trainen.