Condividi tramite


Formati di dati accettati

Se si sta tentando di importare i dati in una classificazione personalizzata del testo, è necessario seguire un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.

Formato del file di etichette

Il file delle etichette deve essere nel formato json indicato di seguito. Ciò consente di importare le etichette in un progetto.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomMultiLabelClassification",
        "storageInputContainerName": "{CONTAINER-NAME}",
        "projectName": "{PROJECT-NAME}",
        "multilingual": false,
        "description": "Project-description",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomMultiLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "classes": [
                    {
                        "category": "Class1"
                    },
                    {
                        "category": "Class2"
                    }
                ]
            }
        ]
    }
}
Chiave Segnaposto Valore Esempio
Multilingue true Valore booleano che consente di avere documenti in diverse lingue nel set di dati e quando il modello viene distribuito è possibile eseguire query sul modello in qualsiasi lingua supportata (non necessariamente inclusa nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto lingue. true
projectName {PROJECT-NAME} Nome progetto MyProject
storageInputContainerName {CONTAINER-NAME} Nome contenitore mycontainer
classi [] Array contenente tutte le classi incluse nel progetto. Queste sono le classi in cui classificare i documenti. []
documenti [] Array contenente tutti i documenti nel progetto e le classi etichettate per il documento. []
posizione {DOCUMENT-NAME} Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questo valore deve corrispondere al nome del documento. doc1.txt
set di dati {DATASET} Set di test a cui verrà sottoposto il file quando viene diviso prima del training. Per altre informazioni, vedere Come eseguire il training di un modello. I valori possibili per questo campo sono Train e Test. Train

Passaggi successivi