Zaakceptowane formaty danych
Jeśli próbujesz zaimportować dane do niestandardowej klasyfikacji tekstu, musi ona mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.
Format pliku etykiet
Plik Labels powinien być w json
formacie poniżej. Umożliwi to zaimportowanie etykiet do projektu.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
Klucz | Symbol zastępczy | Wartość | Przykład |
---|---|---|---|
wielojęzyczny | true |
Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków, aby dowiedzieć się więcej o obsłudze wielojęzycznej. | true |
projectName | {PROJECT-NAME} |
Nazwa projektu | mój projekt |
storageInputContainerName | {CONTAINER-NAME} |
Nazwa kontenera | mycontainer |
obiektów | [] | Tablica zawierająca wszystkie klasy, które znajdują się w projekcie. Są to klasy, do których chcesz sklasyfikować dokumenty. | [] |
documents | [] | Tablica zawierająca wszystkie dokumenty w projekcie i klasy oznaczone dla tego dokumentu. | [] |
lokalizacja | {DOCUMENT-NAME} |
Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, ta wartość powinna być nazwą dokumentu. | doc1.txt |
zestaw danych | {DATASET} |
Zestaw testowy, do którego ten plik zostanie podzielony przed rozpoczęciem trenowania. Aby uzyskać więcej informacji, zobacz Jak wytrenować model . Możliwe wartości dla tego pola to Train i Test . |
Train |
Następne kroki
- Dane z etykietami można zaimportować bezpośrednio do projektu. Zobacz Jak utworzyć projekt , aby dowiedzieć się więcej na temat importowania projektów.
- Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych. Po zakończeniu etykietowania danych możesz wytrenować model.