Delen via


Geaccepteerde gegevensindelingen

Als u uw gegevens probeert te importeren in aangepaste tekstclassificatie, moet deze een specifieke indeling volgen. Als u geen gegevens hebt om te importeren, kunt u uw project maken en Language Studio gebruiken om uw documenten te labelen.

Bestandsindeling van labels

Het labelbestand moet de json onderstaande indeling hebben. Hiermee kunt u uw labels importeren in een project.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomMultiLabelClassification",
        "storageInputContainerName": "{CONTAINER-NAME}",
        "projectName": "{PROJECT-NAME}",
        "multilingual": false,
        "description": "Project-description",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomMultiLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "classes": [
                    {
                        "category": "Class1"
                    },
                    {
                        "category": "Class2"
                    }
                ]
            }
        ]
    }
}
Sleutel Tijdelijke aanduiding Weergegeven als Opmerking
meertalig true Een Booleaanse waarde waarmee u documenten in meerdere talen in uw gegevensset kunt hebben en wanneer uw model wordt geïmplementeerd, kunt u een query uitvoeren op het model in elke ondersteunde taal (niet noodzakelijkerwijs opgenomen in uw trainingsdocumenten). Zie taalondersteuning voor meer informatie over meertalige ondersteuning. true
projectNaam {PROJECT-NAME} Projectnaam myproject
storageInputContainerName {CONTAINER-NAME} Containernaam mycontainer
klassen [] Matrix met alle klassen die u in het project hebt. Dit zijn de klassen waarnaar u uw documenten wilt classificeren. []
documents [] Matrix met alle documenten in uw project en de klassen die voor dit document zijn gelabeld. []
locatie {DOCUMENT-NAME} De locatie van de documenten in de opslagcontainer. Omdat alle documenten zich in de hoofdmap van de container bevinden, moet deze waarde de documentnaam zijn. doc1.txt
gegevensset {DATASET} De testset waarnaar dit bestand gaat wanneer het wordt gesplitst vóór de training. Zie Hoe u een model traint voor meer informatie. Mogelijke waarden voor dit veld zijn Train en Test. Train

Volgende stappen

  • U kunt uw gelabelde gegevens rechtstreeks in uw project importeren. Zie Hoe u een project maakt voor meer informatie over het importeren van projecten.
  • Zie het artikel met instructies voor meer informatie over het labelen van uw gegevens. Wanneer u klaar bent met het labelen van uw gegevens, kunt u uw model trainen.