Godkända dataformat
Om du försöker importera dina data till anpassad textklassificering måste de följa ett visst format. Om du inte har data att importera kan du skapa projektet och använda Language Studio för att märka dina dokument.
Filformat för etiketter
Filen Etiketter bör vara i formatet json
nedan. På så sätt kan du importera etiketterna till ett projekt.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
Nyckel | Platshållare | Värde | Exempel |
---|---|---|---|
flerspråkig | true |
Ett booleskt värde som gör att du kan ha dokument på flera språk i datauppsättningen och när din modell distribueras kan du fråga modellen på alla språk som stöds (inte nödvändigtvis i dina träningsdokument). Mer information om flerspråkig support finns i språkstöd . | true |
projektnamn | {PROJECT-NAME} |
Projektnamn | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Containerns namn | mycontainer |
klasser | [] | Matris som innehåller alla klasser som du har i projektet. Det här är de klasser som du vill klassificera dina dokument i. | [] |
documents | [] | Matris som innehåller alla dokument i projektet och klasserna som är märkta för det här dokumentet. | [] |
plats | {DOCUMENT-NAME} |
Platsen för dokumenten i lagringscontainern. Eftersom alla dokument finns i containerns rot bör det här värdet vara dokumentnamnet. | doc1.txt |
datauppsättning | {DATASET} |
Testuppsättningen som filen ska gå till när den delas upp före träningen. Mer information finns i Träna en modell . Möjliga värden för det här fältet är Train och Test . |
Train |
Nästa steg
- Du kan importera etiketterade data till projektet direkt. Mer information om hur du importerar projekt finns i Skapa ett projekt .
- Mer information om hur du etiketterar dina data finns i artikeln instruktioner. När du är klar med att märka dina data kan du träna din modell.