Formati di dati accettati
Se si sta tentando di importare i dati in una classificazione personalizzata del testo, è necessario seguire un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.
Formato del file di etichette
Il file delle etichette deve essere nel formato json
indicato di seguito. Ciò consente di importare le etichette in un progetto.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
Chiave | Segnaposto | Valore | Esempio |
---|---|---|---|
Multilingue | true |
Valore booleano che consente di avere documenti in diverse lingue nel set di dati e quando il modello viene distribuito è possibile eseguire query sul modello in qualsiasi lingua supportata (non necessariamente inclusa nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto lingue. | true |
projectName | {PROJECT-NAME} |
Nome progetto | MyProject |
storageInputContainerName | {CONTAINER-NAME} |
Nome contenitore | mycontainer |
classi | [] | Array contenente tutte le classi incluse nel progetto. Queste sono le classi in cui classificare i documenti. | [] |
documenti | [] | Array contenente tutti i documenti nel progetto e le classi etichettate per il documento. | [] |
posizione | {DOCUMENT-NAME} |
Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questo valore deve corrispondere al nome del documento. | doc1.txt |
set di dati | {DATASET} |
Set di test a cui verrà sottoposto il file quando viene diviso prima del training. Per altre informazioni, vedere Come eseguire il training di un modello. I valori possibili per questo campo sono Train e Test . |
Train |
Passaggi successivi
- È possibile importare direttamente i dati etichettati nel progetto. Per altre informazioni sull'importazione di progetti, vedere Come creare un progetto.
- Per altre informazioni sull’etichettatura dei dati, vedere l’articolo sulla procedura. Dopo aver etichettato i dati, è possibile eseguire il training del modello.